小米这个分享的核心其实是怎么在一个模型里统一「物理世界的确定性」和「未来的不确定性」。
而这两个东西本身其实是有点矛盾的,因为物理世界的几何必须是唯一且稳定的,但未来必须是发散且多解的。
从结果看,小米把之前提到的两个矛盾的方向的上限又提高了一些。
第一是时间长度,从几秒级走向分钟级的稳定生成,这背后是引入了双阶段训练和 ODE 蒸馏,部件长序列的漂移。
第二是一致性,不只是画面看起来对,更关键是多视角、多帧之间的关系能对得上。
我分享了 的 小米汽车世界模型全新框架:重建+生成一体化,主流基准测试全面 SOTA