deepseekV4一发布,有些人就不怀好意拿国产芯片跟英伟达单卡比性能,然后得出“落后”的结论——但这是用英伟达的尺子量国产的路,从一开始就丈量错了。
真正的目的从来不是“超过”,而是“要有”。
一、打不过就换个打法:用数量换质量
昇腾910C的单卡算力确实只有英伟达的60%-80%,但你把这个账拿到集群层面算,结果就完全不同了。
打个比方,单个士兵的战斗力不如对方,但你有两倍的人,通过更好的战术配合就能打赢。华为用的就是这个思路:把384颗910C芯片组成一个“超节点”集群,系统性地作战。对比结果很惊人:单颗910C的BF16性能仅为GB200模组的三分之一,但通过超节点集群后,整体性能却达到了对方集群的1.7倍,反超了70%。
打不赢单兵,就打赢整场战役。这才是真正的阳谋。
更大的杀招在成本和产能端。
昇腾910C的单卡成本约1800美元,仅为H100的五分之一;推理成本更是低到令海外同行胆寒——每百万token仅需0.279美元,相当于英伟达和OpenAI方案的千分之一点五五,便宜了50倍以上。
2025年中国移动发布的20亿订单,6208张昇腾加速卡,从骨干运营商首次在集团层面大规模启动AI超节点设备集采。国产AI算力已从个别彩排,正式进入到“规模化部署”的阶段。
更为关键的是,产能也在围追补位。
据TrendForce数据,尽管英伟达2026年仍长期占据龙头地位,但其下一代Rubin芯片因HBM4验证问题,预计产能已被迫削减约25%。这边产能受限、成本高企;那边国产芯片性能、生态、服务全面发力,价格更亲民、本土化支持更好。
两相叠加,国产厂商已成大厂首选。
---
二、一直缺失的环节,DeepSeek-V4终于补齐了生态拼图
这次DeepSeek-V4最具历史意义的突破,不在单卡跑得多快,而是彻底打通了一条从软件生态到硬件的"国产全栈闭环"。
此前,英伟达真正的护城河不是算力本身,而是CUDA生态——全球无数AI代码、十几年的开发者成果都长在CUDA上,更换硬件意味着几十万行代码重写,迁移成本极高。
DeepSeek-V4花了几个月将底层代码从CUDA完全重写,全面迁移至华为CANN架构,CUDA兼容度做到了惊人的95%。具体表现为推理速度提升了35倍,代码迁移时间从数月缩短到数小时,训练层面已完全脱离英伟达硬件,100%跑在华为昇腾上。
CUDA曾经"固若金汤"的软件护城河,被撕开了一道口子。
---
三、从战略和国家安全层面看:有些事比“是否跑得快”重要得多
有些人“真的坏”,恰恰在于:他们揣着明白装糊涂,用错位的标准来唱衰国产算力,掩盖的不过是技术之外更深的意味。
当关键技术随时可能被断供时,“有没有”是生存问题,“好不好”是发展问题。生存问题,必须优先解决。
从2025年数据看,昇腾全年出货81.2万颗,国产芯片整体市场份额已飙升至41%,英伟达从曾经的95%断崖式滑落至55%。从过去的"没得选",到今天的"大厂都在用",已经在印证一个事实:国产算力正在成为主流选项。
---
四、小结
从单卡追赶,到超节点集群反超;从高成本依赖,到全栈成本碾压;从CUDA垄断,到CANN开门迎客。AI竞争的下半场,已经不是"谁跑得更快",而是"谁能自己造车、自己修路、自己定义规则"。
有些人他是真坏,明知道当前争的不是"超过"而是"要有",却偏用超越的标准来下结论。国产算力从"无"到"有",从"实验室产品"到"运营商级规模部署",这个跨越比任何单点技术参数都值得关注。