蔚来在「世界模型 + 闭环强化学习」的基础上,新增了监督微调环节,形成了完整的三层训练框架,这是本次版本的核心突破。
第一层:大规模预训练(世界模型底座)自动建模长时序环境,理解复杂路况的来龙去脉;高效利用数据,不用依赖海量高质量人工标注数据;为后续的强化学习和微调打下坚实基础,避免 “从零开始学”。
第二层:监督微调(精细行为雕刻)把 “平均水平” 的模型,雕刻成更符合人类驾驶习惯的 “老司机”;解决了纯强化学习容易出现的 “激进 / 保守” 极端行为,大幅刷新用户体验;针对性优化起步慢、跟车远、过弯不丝滑等用户吐槽的痛点。
第三层:闭环强化学习(长时序能力进化)真正解决长时序决策问题,比如复杂路口的博弈、连续变道、高速跟车等;让模型学会 “做对的事”,而不只是 “模仿像”,比如无保护左转、加塞场景的高效通过;实现人机共驾的 “猜意图” 能力,能预判用户接下来的操作,提前做好准备。
并且根据产品老师的信息,这次的NWM新架构输出的不再是轨迹,而是直接的车控信号,比如角速度,加减速,这也让NWM的时延进一步的降低
并且在我们行驶的感受中,这次的NWM对于侧向和后向的感知有着更强的提升,比如在隧道汇入时,主道有车汇入,NWM会减速到一个安心感比较强的阈值,在汇入,但是汇入的场景是有遮挡的话,还是没有能做到很安心
并且在变道逻辑上也有了一定的提升,NWM会根据左右车道的车流以及车辆位置做出不同的变道逻辑,车少且慢的时候,NWM会加速变道且连续,车多且快的时候,NWM会减速让行,然后变道,
这次的NWM版本最重要的就是架构的刷新,在体感的感受上系统会更加的稳定,当然也是还存在一些小问题的,不过总体来讲这个版本会是一个不错的版本,至少在上海我们体验的时候(叠甲),很期待全量版本的表现~蔚来蔚来ES9
