Learning to Drive is a Free Gift: Large-Scale Label-Free Autonomy Pretraining from Unposed In-The-Wild Videos

该论文提出了一种名为 LFG 的无标签教师引导框架,利用大规模未标注的野外视频,通过多模态伪监督信号学习统一的伪 4D 表征,从而在无需相机位姿、标注或激光雷达的情况下,实现了在自动驾驶规划及多种感知任务中超越多传感器基线的卓越性能。

Matthew Strong, Wei-Jer Chang, Quentin Herau, Jiezhi Yang, Yihan Hu, Chensheng Peng, Wei Zhan

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 LFG(全称:Learning to Drive is a Free Gift,意为“学习驾驶是一份免费礼物”)的新系统。

简单来说,这是一个让自动驾驶汽车**“看视频学开车”**的超级大脑。以前,教汽车认路需要昂贵的激光雷达、专业的标注团队和成千上万条人工标记的数据。而 LFG 不同,它就像个天才学生,直接拿着网上随便下载的、没有任何标注的行车视频,自己学会了如何理解世界、预测未来并做出驾驶决策。

为了让你更容易理解,我们可以用几个生动的比喻来拆解这项技术:

1. 核心难题:没有“答案书”怎么学习?

想象一下,你有一堆从未见过的行车视频(就像网上下载的 YouTube 视频),里面只有画面,没有老师告诉你“前面是红灯”、“那是行人”或者“距离那辆车有多远”。

  • 传统方法:需要人类老师(标注员)一帧一帧地画框、标深度,这就像给每本书都手写答案,既贵又慢。
  • LFG 的方法:它不需要老师。它利用了几个已经训练好的“超级助教”(AI 模型),这些助教虽然没见过这些特定视频,但懂得通用的物理规律和视觉常识。LFG 通过观察这些助教的“解题思路”,自己摸索出了规律。

2. 它的超能力:不仅是“看”,还能“想”

普通的自动驾驶模型像是一个**“照相机”,只能看到当下的画面。
LFG 则像是一个
“有经验的老司机”,它不仅能看清现在的路况,还能预测未来几秒会发生什么**。

  • 时空穿越的视角
    想象你在开车,你不仅要看清眼前的红绿灯,还要预判:
    • “那辆红色的车下一秒会不会变道?”
    • “如果我现在加速,两秒后我会停在什么位置?”
    • “那个行人会不会突然冲出来?”
      LFG 就是专门训练这种**“短视未来预测”**能力的。它把视频看作一个连续的故事,而不仅仅是静止的图片。

3. 它是如何工作的?(三个关键步骤)

第一步:请“全能助教”来辅导(教师 - 学生模式)

LFG 自己是个学生,但它有三个很厉害的“助教”:

  1. 几何助教 (π3):教它看深度。就像教孩子判断“那个树有多远”,即使没有尺子,也能凭视觉猜个八九不离十。
  2. 语义助教 (SegFormer):教它认东西。比如“这是路,那是车,那是人”。
  3. 动态助教 (CoTracker/SAM2):教它分清动静。比如“树是静止的,但旁边的车在动”。

LFG 看着这些助教对视频的分析,自己学着去模仿,最终学会了在没有标注的情况下,也能画出 3D 地图、识别物体并判断谁在动。

第二步:像写小说一样“续写”未来(自回归预测)

这是 LFG 最酷的地方。它不仅仅分析已经看过的画面,它还会**“脑补”**未来的画面。

  • 就像你读小说,看到前几章,就能猜到后面大概会发生什么。
  • LFG 看了前 3 秒的视频,就能“生成”后面 3 秒的 3D 点云图、车辆位置和语义标签。它不需要真的看到未来,而是根据物理规律和视觉线索推理出未来。

第三步:从“看视频”到“真开车”(迁移学习)

训练好这个“大脑”后,把它装进自动驾驶系统里。

  • 惊人的效果:在著名的 NAVSIM 驾驶测试中,LFG 只用一个前置摄像头(就像普通手机摄像头),就打败了那些使用多个摄像头 + 昂贵激光雷达的顶级竞争对手。
  • 数据效率极高:以前需要 100% 的标注数据才能练好,LFG 只需要 10% 甚至 1% 的标注数据,就能达到甚至超越别人的水平。这意味着它把“免费视频”的价值发挥到了极致。

4. 为什么这很重要?(比喻总结)

  • 以前的自动驾驶:像是在背题库。老师给多少题,学生就会做多少题。遇到没见过的路况(比如奇怪的天气、新的交通标志),学生就懵了。而且背题库非常贵(需要大量标注数据)。
  • LFG 自动驾驶:像是在练直觉。它看了海量的真实世界视频,理解了物理规律(车会动、人会走、路是平的)。遇到没见过的路况,它能像老司机一样,根据经验推理出该怎么开。

总结

这篇论文的核心思想是:“驾驶知识是免费的,只是以前没人会利用。”

LFG 证明了,只要给 AI 足够多的真实世界视频,并设计聪明的“自学”机制,它就能学会理解 3D 空间、识别物体、预测未来,甚至只用一个摄像头就能比那些装备了全套豪华传感器的车开得更稳、更安全。这就像给自动驾驶领域送了一份巨大的“免费礼物”,让未来的自动驾驶变得更便宜、更普及。