作为AI集群的运维er,之前两件事真能把人折腾到没脾气。 一是扩算力就得加机柜,机房早堆得满满当当;设备PUE居高不下,高热量总让机器出过热告警,硬件老化快,维修成本涨,老板还天天追着念叨降本。二是换加速卡的软件适配堪称噩梦,上次生态迁移,我们团队熬了半个月,每天调试到深夜才搞定。 直到2025世界互联网大会现场,看到中科曙光scaleX640超节点我瞬间觉得有救了。它单机柜能集成640张加速卡,算力密度比现有设备高几十倍,机房不用扩容。PUE低至1.04,长期用能省一大笔电费。还兼容多品牌加速卡,换国产卡不用重构生态,400多款主流大模型可直接适配。 最近跑MoE训练效率明显提升,Q4进度能往前赶了,就盼后续部署十万卡级集群时运维能省点心。 国产智算开放架构超节点 中科曙光发布scaleX640超节点

