作为AI集群的运维er，之前两件事真能把人折腾到没脾气。一是扩算力就得加机柜

作为AI集群的运维er，之前两件事真能把人折腾到没脾气。

一是扩算力就得加机柜，机房早堆得满满当当；设备PUE居高不下，高热量总让机器出过热告警，硬件老化快，维修成本涨，老板还天天追着念叨降本。二是换加速卡的软件适配堪称噩梦，上次生态迁移，我们团队熬了半个月，每天调试到深夜才搞定。

直到2025世界互联网大会现场，看到中科曙光scaleX640超节点我瞬间觉得有救了。它单机柜能集成640张加速卡，算力密度比现有设备高几十倍，机房不用扩容。PUE低至1.04，长期用能省一大笔电费。还兼容多品牌加速卡，换国产卡不用重构生态，400多款主流大模型可直接适配。

最近跑MoE训练效率明显提升，Q4进度能往前赶了，就盼后续部署十万卡级集群时运维能省点心。

国产智算开放架构超节点中科曙光发布scaleX640超节点