刘先明最近接受了张小珺的采访,节目中再次探讨了「端到端」与「VLA架构」。由

梦香评汽车啊 2025-11-24 20:37:19

刘先明最近接受了张小珺的采访,节目中再次探讨了「端到端」与 「VLA 架构」。由于录音中有大量的口语化表达,为了让文字传递更清楚,我借助了Gemini 3对文稿进行了精简,并把专业术语做了中文翻译,欢迎点赞、转发。刘先明:从整体 Paradigm (范式) 来看,变化其实不大。目前的 VLA (视觉-语言-动作模型)、VLM (视觉-语言模型) 以及 World Model (世界模型),本质上仍属于 End-to-End (端到端) 的体系架构。大家现在更多是在探索如何更有效地利用通识知识和 Multimodal Data (多模态数据)。以去年开始流行的 VLM 为例,其通常做法是将 Vision (视觉) 和 Language (语言) 作为输入进行理解,输出语言描述,再将其转化为 Goal Point (目标点) 或 Meta Action (元动作),最后输入到端到端模型中进行决策。而现在的 VLA,包括我们在做的工作,是直接将 Vision 和 Language 作为输入进行推理,直接输出 Action (动作) 和最终结果。为了解决数据利用率和规模问题,许多做法是将传感器信号转化为中间层的 Language Token (语言词元),然后再 Decode (解码) 出最终的 Trajectory (轨迹)。但这种做法其实会产生瓶颈,反而不利于 Data Scaling (数据规模扩展)。张小珺: 那怎么解决这个问题?刘先明:我们的做法更简单直接,去掉中间的语言生成环节。不再让模型中间生成 Language,而是直接以 Vision 和 Language 为输入,直接对 Action (动作) 进行解码。张小珺: 也就是说,Vision 和 Language 一起输入,但不经过中间的 Language 输出环节?刘先明: 对。张小珺: 为什么引入 Language 输出会让效率变低?刘先明:一旦引入视频数据,如果依赖语言输出,就必须对视频打标签。即使利用大模型去 Generate (生成) 标签,最终仍需人工进行判断和质检。张小珺: 我知道理想汽车的自动驾驶模型中,Language 占了比较重要的作用,他们使用了 DeepSeek 的开源模型。你们会这么用吗?刘先明:我们不会这么用。这也是一个心路历程。一开始我们也考虑过使用开源模型,这看起来是一条 Shortcut (捷径),最简单直接。但实际上,这种做法像“毒药”一样,会让你产生严重的依赖,且无法实现数据的自动规模化增长。原因在于,如果中间层始终依赖 Language 作为 Supervision (监督信号)——无论是 VLM 还是其他架构,输入 Vision 和 Text Prompt (文本提示词),输出 Language Token 作为监督——即使我用 DeepSeek 自动打标,依然逃不开人工质检和再训练的流程。更核心的技术原因是,语言本身是一个非常冗余的系统。它是一个 Discrete Space (离散空间),需要 Tokenize (词元化) 并基于 Codebook (码本) 操作。但物理世界的模型有两个本质不同:输入是连续的: 无论是视觉信号还是传感器信号,都不是离散的文本序列。输出是连续的控制空间: 例如汽车的纵向加速度、Kappa (曲率/方向盘转角),或者机器人的电机控制量,这些都是 Continuous Control (连续控制量)。试图用语言生成离散的 Token,再去“翻译”成连续的控制量,这显然是一个低效的过程。张小珺: 所以你们的自动驾驶模型里没有“Language”生成这个环节。刘先明:对,想明白这点后,我们干脆把这一层拆掉了。张小珺: 全都拆掉?刘先明:拆掉中间生成环节,但我们仍需要保留语言理解能力,因为系统必须理解用户意图和导航指令。但这不再是主要的 Dependency (依赖项)。我们重新训练的模型,是从 Vision 加 Language 输入直接映射到 Action 输出。但这会遇到和 Tesla 一样的问题,即 Curse of Dimensionality (维数灾难):输入层的数据维度极高(大量传感器数据),而输出空间(未来几秒的轨迹点或控制量)维度极低,这是一个从极高维到极低维的映射过程,很难收敛。为了解决这个问题,我们引入了 World Model (世界模型)。让系统先尝试理解“世界是如何运行的”,再决定“如何输出动作”。你可以类比文本大模型中的 COT (Chain of Thought,思维链)。既然 COT 在文本中有效,我们就引入了 Visual COT (视觉思维链)。更彻底一点,我们将这个 Visual COT 直接作为一个 Latent Space (隐空间),通过 Generation (生成) 或 Diffusion (扩散模型),去预测中间过程会生成什么样的视频或 BEV (Bird's Eye View,鸟瞰图)。通过这种方式验证模型对世界的理解,从而解决了维度映射的难题。

0 阅读:0
梦香评汽车啊

梦香评汽车啊

感谢大家的关注