马斯克发文： SpaceX 已接近完成其内部 AI 训练栈 V1.0 版本的编

马斯克发文：

SpaceX 已接近完成其内部 AI 训练栈 V1.0 版本的编写。该训练栈使用 C 语言开发，能够精确映射到 22 万个 GB300（NVIDIA Grace Blackwell 超算芯片/GPU），配备 800G NICs（800Gbps 网络接口卡），大量采用流水线并行（pipeline parallelism），并尽可能接近裸机（bare metal）运行。 @elonmusk
与 JAX 相比，在大型训练任务上潜在的速度提升超过一个数量级（即 10 倍以上）。

关键技术要点拆解：
• 用 C 语言从头写训练栈：不像主流框架（PyTorch、JAX 等）那样依赖高层抽象和 Python。C 语言能提供更精细的控制、更低的开销和更高的性能，尤其适合极大规模系统。
• exact-maps to 220k GB300s：系统被专门设计为完美适配 22 万个 NVIDIA GB300 芯片（这是当前最先进的 AI 加速器之一）。SpaceX 的 Colossus 超级集群就有这个量级的规模（最近与 Anthropic 合作相关）。这意味着软件和硬件拓扑高度匹配，几乎没有浪费。
• 800G NICs：每个节点使用 800Gbps 超高速网络卡，支持海量 GPU 间的高带宽、低延迟通信，这是大规模分布式训练的关键。
• Heavy use of pipeline parallelism：流水线并行是一种分布式训练技术，把模型的不同层分配到不同 GPU 上，像工厂流水线一样连续处理数据。它特别适合超大模型，能减少通信开销，提高硬件利用率。
• As close to bare metal as possible：尽可能绕过操作系统、虚拟化、框架运行时等中间层，直接操作硬件，最大化性能和效率。这在超大规模（数十万 GPU）下能显著降低开销。
• vs JAX，over an order of magnitude speedup：JAX 是 Google 的高性能 ML 框架（XLA 编译器很强），但在极大规模时仍有框架开销。SpaceX 声称他们的定制栈能快 10 倍以上——这意味着同样的硬件能训练得更快、或用更少硬件达到相同效果，在 AI 竞赛中是巨大优势。

万益资讯网

马斯克发文： SpaceX 已接近完成其内部 AI 训练栈 V1.0 版本的编

热门分类