万益资讯网

【SpaceX的算力谜题解开了:不是不想训,是训不了——Colossus 1从"

【SpaceX的算力谜题解开了:不是不想训,是训不了——Colossus 1从"王牌资产"降级为"包租公生意"】 彭博最新援引知情人士披露了一个挺伤叙事的细节:SpaceX旗下孟菲斯 Colossus 1 之所以把全部算力整体出租给Anthropic(外加谷歌那份大单),根子不在"战略转型卖铲子",而在工程上跑不通。 原计划用 三处园区组超大集群 训前沿模型,但Colossus 1和另外两站相距10+英里,跨站互联出了严重网络延迟,加上基础设施老化,数据传输效率被拖垮。更要命的是:Colossus 1内部Hopper/Blackwell/旧代加速器混装,分布式训练里"最慢的GPU决定全局速度",木桶短板直接把集群效率摁死了。结论很干脆:与其砸钱填坑,不如租出去收租。

🔑 拆开看,这件事释放三个信号:① "建得快"≠"用得好"。Colossus 1从开工到上线据称122天,全球最快之一,但赶工式扩张的代价是架构碎片化——多代GPU硬塞一个集群、跨园区链路没提前按训练标准对齐,结果就是:纸面FLOPS很高,有效训练吞吐上不去。这对全行业都是教训:下一代竞争不在"谁先点亮22万张卡",而在谁先把互联拓扑、冷却、功耗、调度做成可扩展的工程体系。

② 算力租赁正在变成"资产处置通道"。路透/多方披露的数据显示,Anthropic月付12.5亿美元、谷歌从10月起月付9.2亿美元,合并年化ARR约260亿,合同总盘子700亿+。账面当然漂亮——但核心问题是:租给竞争对手而不是自己用,本身就等于承认训练侧ROI算不过来。Gary Marcus的点更尖锐:这像一个专为IPO窗口期设计的现金流锚。

③ SpaceX的"AI基础设施商"故事,需要补一条底线:如果最老的超大集群只能做推理农场而非前沿训练,那"太空数据中心/轨道AI算力"之类更远期叙事,就得先回答一个更朴素的问题——你在地上都还没把万卡级集群的互联利用率跑满,上天怎么保证不重蹈覆辙?

一句话总结:Colossus 1的出租,不是马斯克找到了新商业模式,而是第一性原理反噬——算力≠算力可用性,拥有≠能用。AI军备竞赛的下半场,淘汰的不会是没有GPU的人,而是有GPU但不会组网的人。

📎 信源:彭博/路透引述 · 凤凰网科技编译 /虎嗅二次梳理|