cuda - 万益资讯网

微星发布魔龙RTX50608GGAMINGOCV1显卡：搭载GB205

2026-07-21 12:17 必炫数码

1972年，9岁的黄仁勋，被舅舅误打误撞，送去了问题少年改造学校，成了全校唯一的

2026-07-17 11:40 历史档案册

5090SE来了！兄弟们显卡又有新消息了！最新曝光有一张新卡5090SE可能要来

2026-07-11 16:49 妙梦深聊科技

有个专家说:要想做出一款和英伟达芯片一样先进性能的人工智能芯片，难度非常大。难

2026-07-03 17:34 小牛顿等等

英伟达在人工智能领域优势显著。硬件上，下一代Rubin平台训练速度是Blackw

2026-06-28 07:52 孟赛好闲聊娱乐

2026年7月显卡性能天梯榜单

2026-06-24 15:59 西风数码

显卡掰开两半，里头不会蹦出代码图纸，只会蹦出一堆烧焦的硅。这就是为什么仿造

2026-06-08 17:11 文乐看趣事

华为云全自研工业级AI开发专区上线：打破CUDA垄断，国产份额首破40%当英伟达

2026-06-08 10:30 京城数码弟

华为云全自研工业级AI开发专区上线：打破CUDA垄断，国产份额首破40%当英伟达CUDA框架长期主导全球AI开发工具链时，中国市场的结构性变化正在加速。2026年6月5日，华为云在上海发布新一代模型训推平台ModelArtsNext，并推出全自研工业级AI开发专区，首次实现了从芯片到应用模型的完整国产化技术栈。这背后是2025年国产AI芯片市场份额首次稳定突破40%的拐点，以及华为昇腾芯片性能对标国际巨头的实质性进展。

中美之间的算力差距到底有多大？根据公开的行业统计，中国总算力规模稳居全球第二

2026-06-04 17:03 芸仪阿搜

中美之间的算力差距到底有多大？根据公开的行业统计，中国总算力规模稳居全球第二，占全球市场两到三成，和美国咬得很紧。但只要你把目光锁定在人工智能训练最烧钱的那种尖端算力，也就是用英伟达顶级显卡堆起来的智算集群上，差距立马就显现出来了。差距的源头非常简单，就是芯片。目前全球能大规模支撑前沿大模型训练的加速卡，几乎被英伟达一家给包圆了。从A100到H100，再到后来的H200、B200，这些卡不但性能吊打其他同类产品，还因为有一个叫CUDA的软件生态，让全球的人工智能开发者都主动或被动的绑在了英伟达的战车上。这些芯片的核心制造工艺仰仗台积电，设计工具用到美国技术，所以美国一纸出口管制，直接切断了高端GPU流入中国大陆的渠道。这个过程很多人都有印象，2022年先禁了A100和H100，英伟达就搞出A800和H800来绕开限制，主要阉割了卡与卡之间的高速互联带宽，H800的NVLink带宽被砍到了A100时代的水平，让大规模并行训练的效率打了折扣。结果到2023年10月，老美再次加码，连这些特供版也一并禁了。此后英伟达为了不丢掉中国市场这块肥肉，又鼓捣出了完全合规的H20、L20等芯片。H20的纸面算力只有H100的百分之十五左右，显存倒是给到了96GB，但总体上说，它更适合做大模型推理，不太适合从头预训练一个万亿参数级的巨型模型。你看这个管制一步步加码，就让国内公司能获得的顶级训练算力极度受限。没办法，国内大厂和初创企业只能走两条路，一是继续用之前囤下的高端存货精打细算，二是加速切换到国产芯片。华为的昇腾系列自然被推到最前线。昇腾910B自2023年下半年起逐步放量，它的半精度浮点算力与A100大致相当，随后在2024年推出的昇腾910C更进一步，性能与H100的单卡差距进一步缩小。华为云和合作伙伴基于数千张昇腾卡构建集群，成功支持了科大讯飞星火大模型、鹏城实验室的系列模型训练，官方披露的训练效率能接近A100方案的九成。可问题不在单卡性能，而在软件生态。全世界的深度学习框架和模型代码几乎都是围绕CUDA写的，突然要迁移到华为的昇思MindSpore框架或适配CANN算子库，相当于把房子换个地基，大量的底层代码需要重写，算子需要重新调试，显存管理逻辑也要改。开发者社区里普遍反映，迁移成本不低，训练过程中遇到的一些隐性bug，花的时间比预期多不少。这就意味着，即使国产卡的硬件算力上来了，由于软件适配和生态的成熟度差距，实际产出效率还是得打一个折扣，算下来有效算力进一步被拉低。不过事情也不是一边倒。国内有一个美国没有的优势，那就是庞大的内需市场和应用场景。中国的移动互联网、智能制造、自动驾驶、智慧城市，这些领域对算力的消耗巨大，其中绝大部分需求属于推理计算。而推理计算对芯片的要求比训练低不少，H20、L20这类特供芯片以及国产的寒武纪、海光、昇腾推理卡完全能够胜任，甚至因为显存大，部分场景比英伟达的高端卡还划算。所以你会发现，虽然训练前沿模型我们吃点亏，但在真正落地的应用端，中国人工智能服务的覆盖面和使用体验一点不差，甚至因为场景磨砺，在推荐算法、图像识别、语音交互上比美国还强。此外，过去两年国家主导的“东数西算”工程已经把算力当成像水电气一样的基础设施来建设。多个西部省份建起了超大型数据中心，里面开始成规模地部署国产智能计算芯片。2025年，一些城市的智算中心算力规模已经达到数千PFLOPS，能够同时支撑几百家企业的训练和推理任务。这种举国体制的力量，让算力的底座在慢慢夯实。与此同时，国内的服务器制造和液冷散热产业链已经做到全球领先，美国搭建十万卡集群，也得从中国采购大量的光模块和制冷设备。双方在产业链上是相互缠绕的，谁也没法完全甩开谁。所以回到最初的问题，中美之间的算力差距到底有多大。简单说，在最尖端的、支撑下一代通用人工智能训练的那部分算力上，差距是明显的，存在一个数量级的落后，核心卡点就在于能拿到什么级别的芯片以及有多少张。但在通用算力、超算和推理算力这些更宽泛的层面，差距要小得多，甚至互有胜负。这种结构性的差距意味着短期内没法在模型参数量的军备竞赛上直接硬拼，但可以凭借算法优化、数据质量提升和应用创新来打差异化。而且随着国内半导体产业链一点点补课，这种差距的绝对值正在逐步缩小，只不过还需要时间和耐心。

COMPUTEX2026，老黄又干了一件大事。他掏出了一颗叫RTXSpa

2026-06-04 09:18 苹苹谈世界科技

英伟达：跳出芯片舒适圈，拿着CUDA老套路下场做人形机器人生态圈，立志给全球

2026-06-03 10:54 岁月风骨

你的下一台电脑可能不是电脑了依托RTXSpark（3nm、20核CPU+614

2026-06-03 00:09 科技张老湿

传统PC生态长期由英特尔x86架构锚定，但随着端侧AI算力需求深度下沉，这套成熟

2026-06-02 08:27 幻巧说商业

传统PC生态长期由英特尔x86架构锚定，但随着端侧AI算力需求深度下沉，这套成熟体系的结构性短板彻底暴露。老旧架构的算力拆分、能效冗余以及原生AI算力的缺失，让其难以适配本地化大模型推理的核心诉求，行业原有壁垒正在持续消解。依托Arm架构重构终端算力底座，叠加自身CUDA生态的绝对垄断优势，英伟达完成了云端到终端的算力闭环打通。千万级开发者生态的无缝迁移，形成了旁人无法复刻的软性壁垒，彻底跳出了传统PC芯片的硬件内卷。

梁文峰称英伟达显卡没技术英伟达的护城河是CUDA，如果他是单拎出显卡这个硬件来说

2026-05-31 16:04 羽度非凡呀

梁文峰称英伟达显卡没技术英伟达的护城河是CUDA，如果他是单拎出显卡这个硬件来说，也可以理解。

迁移这个说法很误导人，不是把DeepSeek底层代码从英伟达CUDA迁移到，首先

2026-05-30 15:34 傲之笑谈汽车啦

打破十年垄断！DeepSeek落地昇腾生态，国产AI实现关键突围过去十多年，英

2026-05-30 11:33 璐璐定力写真

掀桌突破！梁文锋放弃英伟达CUDA，DeepSeek全面适配华为昇腾芯片，这

2026-05-29 18:59 红楼背疏影

2026年5月27日，DeepSeek创始人梁文锋带领团队耗时五个月，将V4万亿

2026-05-28 18:27 托克科普

2026年4月，一个名叫梁文锋的广东湛江80后，让硅谷大佬们集体睡不着觉了。

2026-05-27 11:39 聊几句

2026年4月，一个名叫梁文锋的广东湛江80后，让硅谷大佬们集体睡不着觉了。他带领的DeepSeek团队，干了一件近乎“疯狂”的事，花了五个月时间，把1.6万亿参数的大模型底层代码，硬生生从英伟达的CUDA迁移到了华为昇腾架构上。这不是小修小补，是全栈重写。一位参与迁移的工程师打了个比喻：“难度大概相当于在飞机飞行过程中，把发动机拆下来换掉。”整个工程重写了40万行算子，精度对齐误差控制在0.5%以内。这么多年，大家都觉得离了英伟达的芯片就玩不转AI。美国守着算力这张底牌，以为谁也翻不了天。梁文锋偏不信这个邪。他直接拉上华为和国内另外七家芯片厂商，模型和国产芯片同步研发、同步上线。从CUDA到CANN，从跟随到领跑，这一换，直接把美国守了十几年的算力底牌撕开了一道口子。黄仁勋是真的坐不住了。他在媒体访谈中罕见发飙，当众反驳“芯片是浓缩铀不该出口给中国”的说法，警告过度限制，只会逼中国建立完整的自主生态。这话翻译过来就是：你们再逼下去，他们真不用我们了。而事实确实如此。DeepSeekV4适配的华为昇腾950PR芯片，单卡算力是英伟达对华特供版H20的2.87倍，采购价格却只有H200的三分之一到四分之一。消息一出，阿里巴巴、字节跳动、腾讯等大厂立刻向华为追加了数十万颗昇腾芯片订单。最狠的是，梁文锋压根不给资本指手画脚的机会。他直接和间接持有公司约84.29%的股权，拥有几乎100%的表决权。别人融资是为钱低头，他是让资本陪跑。有人说他是“比任正非更危险的男人”，也有人说他冒着自己沦为二流大模型的风险，给中国AI趟路。但他只说了一句大实话：“别人的地基再稳，也不如自己的踏实。”从通信到AI，从任正非到梁文锋，中国人被卡脖子的地方，迟早要长出自己的力量。这条路，已经趟出来了。欢迎大家点赞、评论、转发，让更多人看到！

7G100显卡3299，创始版限量1000块。说一句得罪人的话：很多人一边喊"

2026-05-22 23:43 职场摸鱼代表

2026年全球富豪榜里，马斯克以8366亿美元再度成为首富，黄仁勋排名第八。不过

2026-05-21 12:50 满是映山红

国产真自研GPU首发：差距明显，但播下了希望的种子今晚8点，国产自研6nm显卡

2026-05-20 21:59 雅山聊科技

黄仁勋接受采访被问，现在变得很有钱了，你还有哪些梦想，没想到他的回答让人惊掉下巴

2026-05-16 15:17 薇观笑谈

黄仁勋说“够了”，媒体不信，他真没再追新梦。不是装，也不是摆谱，是1999年

2026-05-16 12:08 杜袭田野里种豆

李想称自研芯片被质疑跟风烧钱我觉得企业家受到质疑很正常。无非就是解释好这几个事

2026-05-12 14:15 恒南谈汽车啊

DeepSeek被曝融资500亿元，梁文锋占大头，估值有望一举突破3500亿元人

2026-05-12 07:29 东意不一样

🔥英伟达显卡参数全汇总！30/40/50系

2026-05-08 15:37 小禾糖糖

DeepSeek突然估值飙到450亿，CUDA断了，国产芯片还没完全扛住，它凭什

2026-05-07 20:15 惜儿偲偲

英伟达中国份额降至0这事其实已经不是英伟达赚不赚钱的问题了，黄仁勋现在最怕的，

2026-05-06 20:11 陈玮玮

5月6日周三暗盘隔夜挂单排行榜揭晓5月6日暗盘隔夜挂单，海光信息这波真是抢占

2026-05-04 21:18 半城烟论财源

打破垄断开创新时代，半导体大爆发！在此之前，全球AI大模型的训练与推理几乎被英伟

2026-04-28 00:49 峰哥来趋势

打破垄断开创新时代，半导体大爆发！在此之前，全球AI大模型的训练与推理几乎被

2026-04-27 20:18 发事深扒商业

中国开源大模型改写AI格局环球时报陈经2026-04-27日前，国产大模型D

2026-04-27 08:43 烨华聊商业

再一次感谢梁文锋，历史性的一刻。今天DeepSeek放出了两个新产品，一个叫V4

2026-04-25 11:27 潇洒友A

我觉得，今天DeepSeekV4一发布就开源，最大的亮点就是：Ds4直接证明，

2026-04-25 02:11 坦荡的奶茶

英伟达万亿市值的护城河要崩塌了？中国AI生态“去CUDA化”意味着啥？英伟达的

2026-04-25 00:48 趣闻与阅读

DeepSeek-V4真的有点“掀桌子”的意思了，几个关键点👉：1“完全

2026-04-24 18:55 战老林品商业

中国为什么不拆开英伟达的显卡研究，从而造出自己的国产显卡？拆解英伟达显卡的工作

2026-04-17 12:16 鉴史说

魏少军教授那番话，算是把“复刻英伟达”的窗户纸彻底捅破了。死磕CUDA兼容这条路

2026-04-09 22:08 啊格格聊汽车

有人问我，英伟达到底凭什么这么值钱？我说，你去看CUDA就明白了。CUD

2026-03-19 23:51 冥王星的主人

有人问我，英伟达到底凭什么这么值钱？我说，你去看CUDA就明白了。CUDA是2006年英伟达推出的一套编程平台，就是让程序员能用GPU运行各种计算，就这么个东西，现在成了整个AI行业的命门，几乎所有大模型都运行在上面。为什么别人绕不开它？有四道墙。第一道墙，是开发者，全球超过400万开发者基于CUDA写代码。这些人花了大量时间学习这套东西，写了大量代码，你让他们换到AMD的ROCm？他们宁可多花钱买英伟达，也不想重来一遍。这不是技术问题，这是人的问题。第二道墙，是软件库。英伟达这些年攒了一堆现成的工具：TensorRT负责推理加速，cuDNN专门优化神经网络，NCCL搞定多卡通信。这些库都是跟英伟达的硬件深度绑定优化的，换块AMD的卡，你得重新验证每一个库的表现，费时费力，结果还不一定效果好。第三道墙，是迁移成本，一家公司的AI模型如果基于CUDA开发，换平台不只是改几行代码就可以了，团队要重新培训，文档要重新写，踩过的坑要重新踩一遍。这笔账算下来，很多公司直接放弃，乖乖续费买英伟达的卡。第四道墙，是时间。英伟达搞CUDA将近二十年了，AMD的ROCm才刚起步，哪怕其他厂家每年进步30%，追上也要七八年。AI行业哪等得了那么久。当然，CUDA的护城河也不是铁板一块。谷歌早就在用自己的TPU运行内部任务，Meta、OpenAI也在用AMD的卡做部分工作负载。PyTorch现在加了编译器层，理论上可以让代码不那么依赖底层芯片。但这些裂缝，还远没有变成缺口。真正能撼动英伟达的，不是哪家芯片公司做出了更快的硬件，而是整个行业攒出了一套足够好用的"翻译层"，让代码不用改就能在任何芯片上完美运行。在那之前，英伟达还是老大

标签: cuda

热门分类