可以参考一下七九三一对理想M100芯片的分析微博用户七九三一2026年5月18日:我来帮理想聊聊M100这款芯片吧,目前网络上的各种解释,很多都有点添乱了。
1.算力重不重要?重要,但很难在目前限制下做大了。AI算力难就难在制程上了。
AI芯片设计没有那么难,可以理解成小单元的重复。制程越先进,晶体管密度越高,一颗芯片能重复的小单元越多,算力就越大。
但问题是,目前美国对中国还是有限制的,具体可以看BIS的条款,芯片面积和晶体管数量都做了限制,也就意味着能重复的小单元总量也有限制。
所以在目前的限制下,各家智驾顶级芯片,走台积电代工的算力,大体保持在了同一量级。
实质超过Thor的第三方芯片,比如辉羲智能、黑芝麻A2000,都被BIS卡到怀疑人生。
2.所以,优化路径主要在架构和算法上。在端到端阶段,你可以理解为智驾就是跑大模型,当然,不同家的模型尺寸不一样。
比如特斯拉大体上是一百多个0.0xB-0.xB的小尺寸模型,分不同场景的组合。
小鹏号称车上是个几B的大尺寸模型,并计划把20B的模型上车。
理想论文中也表示MindVLA是个4.xB的模型,按照前面论文和公开资料,还是个MoE。
3.模型跑的快慢,决定了车反应的速度。模型大体可以分为两个阶段,Prefill和Decode,前者是信息输入,是算力敏感性;后者是执行输出,是带宽敏感型。
带宽越大,Decode的速度越快,吐token的速度也越快,输出执行指令的延迟和频率就越高。
参考特斯拉,从AI4到AI5,带宽从448GB/s(一说224GB/s),提升到了921GB/s。
但目前的端到端,也需要大算力减少prefill的延时。
按特斯拉PPT的理想状态,一次要输入20亿token,小鹏之前一次公开演讲也提到,一次输入是3万token,他们缩减到了一万五;卓驭还是元戎提到的是一次要输入大几千token。
总之,都不少。
Token输入越多,同样的首token延迟,需要的算力就越大。
于是特斯拉从AI4到AI5,提升的主要是算力,从单芯片250T左右,提升到了2000T左右。
——当然,特斯拉也做了数据流的架构优化,知乎上有地平线的人写过专利解析。
4.在总算力被限制的前提下,理想选择的通过数据流架构提升Prefill的速度。传统的一二三级缓存架构下,prefill的延迟主要被数据搬运的等待限制了。
但在数据流架构下,prefill的速度就能大幅降低,具体原因可以参考论文内容。
于是如果同样跑没经过太多优化的Llama 7B,理想M100跟英伟达Thor相比,Prefill速度提升了一倍,这就是数据流架构的优势。但decode速度基本一致,这也跟芯片带宽基本一致,都是273GB/s。
——但不管怎么说,总延迟降低了不少。
但如果跑优化过的MindVLA,理想M100的速度就比Thor在prefill和decode阶段都快很多。
——这就是软硬结合的优势。
5.所以,理想M100芯片的核心特点是,在算力实质上受限的前提下,重点聚焦Prefill阶段,通过优化芯片架构,也就是数据流架构,实现了更高的处理能力。
理想汽车