可以参考一下七九三一对理想M100芯片的分析微博用户七九三一2026年5月18日

可以参考一下七九三一对理想M100芯片的分析微博用户七九三一2026年5月18日：我来帮理想聊聊M100这款芯片吧，目前网络上的各种解释，很多都有点添乱了。

1.算力重不重要？重要，但很难在目前限制下做大了。AI算力难就难在制程上了。

AI芯片设计没有那么难，可以理解成小单元的重复。制程越先进，晶体管密度越高，一颗芯片能重复的小单元越多，算力就越大。

但问题是，目前美国对中国还是有限制的，具体可以看BIS的条款，芯片面积和晶体管数量都做了限制，也就意味着能重复的小单元总量也有限制。

所以在目前的限制下，各家智驾顶级芯片，走台积电代工的算力，大体保持在了同一量级。

实质超过Thor的第三方芯片，比如辉羲智能、黑芝麻A2000，都被BIS卡到怀疑人生。

2.所以，优化路径主要在架构和算法上。在端到端阶段，你可以理解为智驾就是跑大模型，当然，不同家的模型尺寸不一样。

比如特斯拉大体上是一百多个0.0xB-0.xB的小尺寸模型，分不同场景的组合。

小鹏号称车上是个几B的大尺寸模型，并计划把20B的模型上车。

理想论文中也表示MindVLA是个4.xB的模型，按照前面论文和公开资料，还是个MoE。

3.模型跑的快慢，决定了车反应的速度。模型大体可以分为两个阶段，Prefill和Decode，前者是信息输入，是算力敏感性；后者是执行输出，是带宽敏感型。

带宽越大，Decode的速度越快，吐token的速度也越快，输出执行指令的延迟和频率就越高。

参考特斯拉，从AI4到AI5，带宽从448GB/s（一说224GB/s），提升到了921GB/s。

但目前的端到端，也需要大算力减少prefill的延时。

按特斯拉PPT的理想状态，一次要输入20亿token，小鹏之前一次公开演讲也提到，一次输入是3万token，他们缩减到了一万五；卓驭还是元戎提到的是一次要输入大几千token。

总之，都不少。

Token输入越多，同样的首token延迟，需要的算力就越大。

于是特斯拉从AI4到AI5，提升的主要是算力，从单芯片250T左右，提升到了2000T左右。

——当然，特斯拉也做了数据流的架构优化，知乎上有地平线的人写过专利解析。

4.在总算力被限制的前提下，理想选择的通过数据流架构提升Prefill的速度。传统的一二三级缓存架构下，prefill的延迟主要被数据搬运的等待限制了。

但在数据流架构下，prefill的速度就能大幅降低，具体原因可以参考论文内容。

于是如果同样跑没经过太多优化的Llama 7B，理想M100跟英伟达Thor相比，Prefill速度提升了一倍，这就是数据流架构的优势。但decode速度基本一致，这也跟芯片带宽基本一致，都是273GB/s。

——但不管怎么说，总延迟降低了不少。

但如果跑优化过的MindVLA，理想M100的速度就比Thor在prefill和decode阶段都快很多。

——这就是软硬结合的优势。

5.所以，理想M100芯片的核心特点是，在算力实质上受限的前提下，重点聚焦Prefill阶段，通过优化芯片架构，也就是数据流架构，实现了更高的处理能力。

理想汽车

万益资讯网