科大讯飞也在实践中摸索出针对性的解决方法,为大模型国产化创新做出贡献:1、基于微序列并行流水的训练加速技术这一技术将长序列分解成较小的序列,使得大模型训练多卡存储时大幅降低激活显存峰值和流水并行计算空泡率,有效解决了国产算力集群显存方面的短板,优化了显存利用效率和整体模型的训练性能,让模型上下文处理能力实现了显著提升。2、面向CV分离架构的注意力计算访存优化技术大模型训练中核心的计算之一是Attention(注意力),尤其是在代码等长下文场景中会占据大量的训练运算量。因此基于CV分离架构的特点,首创了基于阈值的在线Softmax算法,能够大幅降低Softmax计算时最大值更新和读写全局存储的频次,Attention计算访存实现最大值延迟更新策略。3、基于前后向kernel编排的MoE通算掩藏技术MoE大模型在训练运算过程中存在需要卡与卡之间模型传输结束后才能进行下一次计算的情况,其中涉及一个关键指标——不可掩藏通信。通信过程中如果不能有效计算,会导致算力空耗等问题。我们提出基于前后向kernel编排的MoE通算掩藏技术,能够通过精细化统筹计算流程实现通信耗时有效掩藏,不可掩藏通信占比从48.4%压缩下降至25.5%左右,让训练效率大幅提升。值得一提的是,在华为昇腾950DT芯片上,这一指标数据能够进一步压缩到15%,甚至超越英伟达芯片常规利用开源算法达到的效果。4、基于进程级快恢的集群规模无关断点续训技术针对上面所提到的大模型训练时常中断问题,提出基于进程级快恢的集群规模无关断点续训技术,能够快速了解历史记录中保留的模型状态信息并定位和判断故障,避免全部重启的情况下实现故障节点训练状态的自动恢复。该技术将大模型断点续训恢复时间从30分钟降低至3.2分钟,可支持的集群规模从万卡拓展至万P,有力支撑了我国“群计算补单芯片”大策略的落地。