理想ReflectDrive-2值得留意一下以下内容来自自动驾驶之心:
2026年5月6日,理想汽车放出了他们最新的工作 ReflectDrive-2。乍一看以为是ReflectDrive的升级版,但再仔细学习之后,才意识到这可能是对量产的新思考。
整体上看,ReflectDrive-2 采用了新的架构去做端到端 —— 离散扩散模型。这在以往的VLA或者端到端模型中很少见,并且 ReflectDrive-2 已经在Thor上做了验证,31.8 ms,满足实车需求。
很硬核的工作,所以今天推荐给大家。我们也在第一时间联系到作者做了简短的QA。
问:因为我们也知道现在主流的方案,不论是大语言模型或者具身基座模型,可能都在围绕 AR 或者连续 diffusion 去做端到端模型的方案,你们为什么要选择离散扩散模型作为基础去研究这个事情呢?
答:首先像 GPT 还有 Pi 系列方案大家都耳熟能详,效果一直占据领先主导位置,但是自动驾驶比较特别,他是一个高频率需求系统,周围的环境高频变化,你需要高频的做出反应,所以能够在端侧高频的跑起来对于整个系统的效果很关键。
AR 首先大家现在用语言模型,都会觉得他需要一个一个 token 按顺序输出太慢了,这个在端侧想要跑起来,为了追求速度,目前的算力只能支持小一些的模型,不方便做模型 scaling,而且按顺序输出轨迹其实不符合人的思维,很多时候我们只是想我要变道左边,并不会想出来我会在那个点变道过去,先有了一个大概方向再去想怎么开过去即可。
再来看 diffusion 方案,最早了解到这个方案我相信很多人和我们一样是 diffusion policy,让大家很好的看到了 diffusion 对于多模态数据的建模能力,然后随着 diffusion 在自动驾驶领域的迁移,大家为了轨迹的更加可控以及可落地性(方便添加一些特殊场景的人工干预),比如地平线提出了 DiffusionDrive 以及 GoalFlow,引入 anchor/goal 点进行引导,anchor/goal 是可控的,但是这样做又引入了一个其他的问题,anchor/goal 是额外系统引入的,他不利于端到端系统进行 scaling,额外引入的系统会打破数据分布的规律。
要想真的做好一个端到端的模型,肯定要尽可能将整个问题建模成一个整体的模型,恰好我们去年了解到李崇轩老师关于离散扩散模型的工作,可以满足我们对于端到端系统的需求,并行解码效率高,就开始这个方向的研究。
问:那可以整体介绍一下这个方案的优势吗?
答:首先我们是基于离散扩散模型,那就意味着坐标都进行了离散化,这同时能带来一个好处,我们所有的输入信息都可以离散化成统一词表,帮助信息的理解交互,也可以方便的做一些坐标的预训练任务等。
其次离散的 token 可以更加高效的进行采样,强化学习对于整个轨迹合理空间的探索相对容易很多,我们也根据这一特性提出了 field loss 等训练目标。
其次我们希望轨迹可以进行一个自我反思,这在我们第一篇工作中也可以体现,正好可以利用离散扩散模型的 token2token 特性进行 AutoEdit,并且从结果中我们确实可以看到,强化学习不论是在基础模型的能力建设还是自我反思过程的因果学习中都能有明显的提升,说明我们的方案确实利好强化学习的稳定落地。
再者我们的建模是一个彻底的端到端模型,还有单独的 action expert,方便进行 scaling,还具有很大潜力探索。
最后为了证明这个方案的可行性,我们还尝试在英伟达 Thor 芯片上进行部署优化,其中提出了半帧率(ASD)方案,搭配一些 KV cache 优化,解码过程 GPU 化等手段,最后能以平均 31.8 ms/帧运行在 Thor 芯片上。
论文标题:ReflectDrive-2: Reinforcement-Learning-Aligned Self-Editing for Discrete Diffusion Driving
摘要本文提出了 ReflectDrive-2,一种面向自动驾驶的掩码离散扩散(Masked Discrete Diffusion)规划器。该方法将规划轨迹表示为离散的轨迹 token,并通过并行掩码解码来生成轨迹。基于离散 token 空间的特性,模型可以对轨迹进行就地修正:AutoEdit 机制利用同一模型改写选定的 token,无需引入额外的精炼网络。
训练分为两个阶段。第一阶段,沿纵向进度和横向航向方向构造结构感知的专家轨迹扰动,并监督模型恢复原始专家轨迹。第二阶段,使用强化学习(RL)对完整的"决策-起草-反思"流程进行微调,将终端驾驶奖励分配给编辑后的最终轨迹,并通过策略梯度将信用同时回传至起草和编辑两个阶段。RL 的联合优化至关重要:在纯监督训练下,推理时 AutoEdit 最多提升 0.3 PDMS,而 RL 将这一增益提高到了 1.9。
此外,论文针对"决策-起草-反思"流程设计了高效的反思解码栈,结合共享前缀 KV 缓存复用、交替步解码(ASD)和融合设备端去遮蔽等技术。在 NAVSIM 基准上,ReflectDrive-2 以纯相机输入达到 91.0 PDMS,在 best-of-6 oracle 设置下达到 94.8 PDMS,同时在 NVIDIA Thor 上实现了 31.8ms 的平均延迟。
理想汽车理想汽车