万益资讯网

真的被这一幕干沉默了……

最近微软推出一系列自研模型,其技术报告里面一张表格直接把我看呆了:

从零开始训练模型过程中,微软连续迭代了v2、v3、v4三个约600B参数的MoE模型,要知道600B参数都快和DeepSeek-V3(671B)一个量级了!

关键是,这三个模型基本就是拿来测试用的,并且分别做了这些迭代:

v2:用于验证新硬件、训练框架、容错等基础设施。

v3:主要优化路由(如切换到dropless MoE),继续基础设施测试。

v4:增加专家数、引入LatentMoE等,进一步测试更大规模和复杂架构。

这个过程消耗的算力可想而知!第一次这么直观地感受到,前沿AI已经是靠拼资源的游戏了。微软