这两张图片非常重要,可以终结网上一部分关于纯视觉的质疑。
图一是人眼感知到的 RGB 图像,图二是特斯拉 AI 光子技术重建而来的图像。
需要指出的是,其实 FSD 模型看到的压根不是图二这样,图二只是基于摄像头的原始数据 RAW Data,保留了摄像头感知到的全部动态范围,未尽 ISP 处理的数据,为了屏幕显示,为了让人眼看懂而做的可视化压缩/映射/重建。
实际 FSD 模型读取的 RAW Data 所蕴含的高动态范围信息要远远超过图二所呈现的,包含极亮区域的细微梯度,极暗区域的微弱信号,更多的光谱信息以及时间维度上的多帧累积和统计判断。
由于人眼的视网膜 + 大脑视觉皮层也会进行等效生物 ISP 的处理,也会丢弃掉大量的原始光子信息,所以也可以这样说,理论上,在浓雾、沙尘暴等低能见度的场景下,直接读取光子信息能让模型实现比只有人眼可用的老司机更强的感知。
这个我自己也有切身体会,前段时间我们在开着小鹏 VLA 2.0 横穿中国的时候,在新疆遇到多次突发沙尘暴,人眼能感知的能见度已经大幅下降,但 VLA 2.0 依然跑得很稳定。
你硬件要有一个高动态范围的摄像头选型,软件要走绕过 ISP 读取RAW Data 的光子进路线,那么你就无法拿你的人眼和这样的辅助驾驶模型直接对比,因为模型能看到的东西,比你多多了。



