万益资讯网

马斯克发文: SpaceX 已接近完成其内部 AI 训练栈 V1.0 版本的编

马斯克发文:

SpaceX 已接近完成其内部 AI 训练栈 V1.0 版本的编写。该训练栈使用 C 语言开发,能够精确映射到 22 万个 GB300(NVIDIA Grace Blackwell 超算芯片/GPU),配备 800G NICs(800Gbps 网络接口卡),大量采用流水线并行(pipeline parallelism),并尽可能接近裸机(bare metal)运行。 @elonmusk
与 JAX 相比,在大型训练任务上潜在的速度提升超过一个数量级(即 10 倍以上)。


关键技术要点拆解:
• 用 C 语言从头写训练栈:不像主流框架(PyTorch、JAX 等)那样依赖高层抽象和 Python。C 语言能提供更精细的控制、更低的开销和更高的性能,尤其适合极大规模系统。
• exact-maps to 220k GB300s:系统被专门设计为完美适配 22 万个 NVIDIA GB300 芯片(这是当前最先进的 AI 加速器之一)。SpaceX 的 Colossus 超级集群就有这个量级的规模(最近与 Anthropic 合作相关)。这意味着软件和硬件拓扑高度匹配,几乎没有浪费。
• 800G NICs:每个节点使用 800Gbps 超高速网络卡,支持海量 GPU 间的高带宽、低延迟通信,这是大规模分布式训练的关键。
• Heavy use of pipeline parallelism:流水线并行是一种分布式训练技术,把模型的不同层分配到不同 GPU 上,像工厂流水线一样连续处理数据。它特别适合超大模型,能减少通信开销,提高硬件利用率。
• As close to bare metal as possible:尽可能绕过操作系统、虚拟化、框架运行时等中间层,直接操作硬件,最大化性能和效率。这在超大规模(数十万 GPU)下能显著降低开销。
• vs JAX,over an order of magnitude speedup:JAX 是 Google 的高性能 ML 框架(XLA 编译器很强),但在极大规模时仍有框架开销。SpaceX 声称他们的定制栈能快 10 倍以上——这意味着同样的硬件能训练得更快、或用更少硬件达到相同效果,在 AI 竞赛中是巨大优势。