刘先明最近接受了张小珺的采访，节目中再次探讨了「端到端」与「VLA架构」。由

刘先明最近接受了张小珺的采访，节目中再次探讨了「端到端」与「VLA 架构」。由于录音中有大量的口语化表达，为了让文字传递更清楚，我借助了Gemini 3对文稿进行了精简，并把专业术语做了中文翻译，欢迎点赞、转发。刘先明：从整体 Paradigm (范式) 来看，变化其实不大。目前的 VLA (视觉-语言-动作模型)、VLM (视觉-语言模型) 以及 World Model (世界模型)，本质上仍属于 End-to-End (端到端) 的体系架构。大家现在更多是在探索如何更有效地利用通识知识和 Multimodal Data (多模态数据)。以去年开始流行的 VLM 为例，其通常做法是将 Vision (视觉) 和 Language (语言) 作为输入进行理解，输出语言描述，再将其转化为 Goal Point (目标点) 或 Meta Action (元动作)，最后输入到端到端模型中进行决策。而现在的 VLA，包括我们在做的工作，是直接将 Vision 和 Language 作为输入进行推理，直接输出 Action (动作) 和最终结果。为了解决数据利用率和规模问题，许多做法是将传感器信号转化为中间层的 Language Token (语言词元)，然后再 Decode (解码) 出最终的 Trajectory (轨迹)。但这种做法其实会产生瓶颈，反而不利于 Data Scaling (数据规模扩展)。张小珺：那怎么解决这个问题？刘先明：我们的做法更简单直接，去掉中间的语言生成环节。不再让模型中间生成 Language，而是直接以 Vision 和 Language 为输入，直接对 Action (动作) 进行解码。张小珺：也就是说，Vision 和 Language 一起输入，但不经过中间的 Language 输出环节？刘先明：对。张小珺：为什么引入 Language 输出会让效率变低？刘先明：一旦引入视频数据，如果依赖语言输出，就必须对视频打标签。即使利用大模型去 Generate (生成) 标签，最终仍需人工进行判断和质检。张小珺：我知道理想汽车的自动驾驶模型中，Language 占了比较重要的作用，他们使用了 DeepSeek 的开源模型。你们会这么用吗？刘先明：我们不会这么用。这也是一个心路历程。一开始我们也考虑过使用开源模型，这看起来是一条 Shortcut (捷径)，最简单直接。但实际上，这种做法像“毒药”一样，会让你产生严重的依赖，且无法实现数据的自动规模化增长。原因在于，如果中间层始终依赖 Language 作为 Supervision (监督信号)——无论是 VLM 还是其他架构，输入 Vision 和 Text Prompt (文本提示词)，输出 Language Token 作为监督——即使我用 DeepSeek 自动打标，依然逃不开人工质检和再训练的流程。更核心的技术原因是，语言本身是一个非常冗余的系统。它是一个 Discrete Space (离散空间)，需要 Tokenize (词元化) 并基于 Codebook (码本) 操作。但物理世界的模型有两个本质不同：输入是连续的：无论是视觉信号还是传感器信号，都不是离散的文本序列。输出是连续的控制空间：例如汽车的纵向加速度、Kappa (曲率/方向盘转角)，或者机器人的电机控制量，这些都是 Continuous Control (连续控制量)。试图用语言生成离散的 Token，再去“翻译”成连续的控制量，这显然是一个低效的过程。张小珺：所以你们的自动驾驶模型里没有“Language”生成这个环节。刘先明：对，想明白这点后，我们干脆把这一层拆掉了。张小珺：全都拆掉？刘先明：拆掉中间生成环节，但我们仍需要保留语言理解能力，因为系统必须理解用户意图和导航指令。但这不再是主要的 Dependency (依赖项)。我们重新训练的模型，是从 Vision 加 Language 输入直接映射到 Action 输出。但这会遇到和 Tesla 一样的问题，即 Curse of Dimensionality (维数灾难)：输入层的数据维度极高（大量传感器数据），而输出空间（未来几秒的轨迹点或控制量）维度极低，这是一个从极高维到极低维的映射过程，很难收敛。为了解决这个问题，我们引入了 World Model (世界模型)。让系统先尝试理解“世界是如何运行的”，再决定“如何输出动作”。你可以类比文本大模型中的 COT (Chain of Thought，思维链)。既然 COT 在文本中有效，我们就引入了 Visual COT (视觉思维链)。更彻底一点，我们将这个 Visual COT 直接作为一个 Latent Space (隐空间)，通过 Generation (生成) 或 Diffusion (扩散模型)，去预测中间过程会生成什么样的视频或 BEV (Bird's Eye View，鸟瞰图)。通过这种方式验证模型对世界的理解，从而解决了维度映射的难题。