Open-World Motion Forecasting

该论文提出了“开放世界运动预测”这一新范式,通过构建首个端到端类增量运动预测框架,利用伪标签策略和基于查询特征方差的重放采样机制,在从相机图像直接预测轨迹的同时有效缓解了灾难性遗忘,实现了自动驾驶系统在动态变化环境中的持续适应与零样本迁移。

Nicolas Schischka, Nikhil Gosala, B Ravi Kiran, Senthil Yogamani, Abhinav Valada

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 OMEN 的新系统,它的核心任务是让自动驾驶汽车拥有一种"终身学习"的能力,专门用来预测路上其他物体(比如车、人、自行车)下一秒会往哪里跑。

为了让你更容易理解,我们可以把自动驾驶系统想象成一位正在开车的“老司机”

1. 以前的困境:死记硬背的“书呆子”

在传统的自动驾驶系统中,这位“老司机”在上学(训练)时,老师只教他认识固定的一批人:比如“轿车”、“卡车”和“行人”。

  • 封闭世界(Closed-World):老师告诉他:“路上只有这三种东西,你只需要预测这三种。”
  • 问题:如果有一天,路上突然出现了一种新玩意儿,比如电动滑板车或者独轮车,这位“老司机”就懵了。他要么完全看不见,要么把它当成别的物体乱猜。
  • 重新学习的代价:如果要让他学会认识滑板车,以前的做法是把他所有的课本(历史数据)都翻出来,把“滑板车”加进去,然后让他重新把整本书背一遍。这不仅费时间、费钱,而且因为背了新东西,他反而把以前学得很熟的“轿车”和“行人”给忘了(这叫灾难性遗忘)。

2. OMEN 的解决方案:聪明的“活到老学到老”

这篇论文提出的 OMEN 系统,就像是一位超级聪明的老司机,他不需要把整本书重新背一遍,就能学会新东西,同时不忘旧知识。它主要靠两个“独门绝技”:

绝技一:VLM 辅助的“影子教练” (伪标签 + 视觉语言模型)

当这位老司机第一次遇到“电动滑板车”时,他手里没有详细的说明书(没有完美的标注数据)。

  • 怎么做:系统先让老司机凭经验猜一下滑板车的位置和轨迹,这叫“打草稿”(生成伪标签)。
  • 关键一步:这时候,系统请来了一个超级博学的“影子教练”(视觉语言模型,VLM)。这个教练看过无数图片和文字,非常懂常识。
    • 如果老司机猜:“那个滑板车会突然飞上天!” -> 教练说:“不对,滑板车不会飞,这个猜测是错的,删掉。”
    • 如果老司机猜:“那个滑板车在路边停着。” -> 教练说:“对,符合常理,保留。”
  • 结果:通过这种“猜 - 查 - 改”的过程,老司机学会了新物体,而且因为教练把关,他不会因为瞎猜而把旧知识搞乱。

绝技二:只记“精彩片段”的“记忆回放” (基于方差的回放策略)

为了不让老司机忘了以前学过的“轿车”怎么跑,系统不能把所有以前看过的路都存下来(内存不够)。

  • 以前的做法:随机挑一些以前的视频片段复习。但这可能挑到的都是“车在直路上匀速开”这种无聊的片段,对提升技术没帮助。
  • OMEN 的做法:系统会看老司机大脑里的“神经信号”(特征方差)。
    • 如果一段路里,车突然急转弯、行人突然横穿马路(高方差、信息量大),系统就会想:“这段太精彩了,必须存下来复习!”
    • 如果一段路车都在直直地开(低方差、太简单),系统就会想:“这段太普通了,不用存。”
  • 结果:老司机只复习那些最复杂、最惊险的驾驶场景,用最小的内存,记住了最核心的驾驶技巧,从而防止了“遗忘”。

3. 实际效果如何?

作者在真实的自动驾驶数据集(nuScenes 和 Argoverse 2)上测试了这套系统:

  • 不遗忘:即使学会了“滑板车”,他对“轿车”和“行人”的预测依然非常准。
  • 适应新事物:面对从未见过的物体,它能迅速上手。
  • 零样本迁移:最厉害的是,他们在真实的自动驾驶汽车上测试,直接把这套系统用在了从未见过的真实路况中(比如从新加坡的数据直接用到真实的德国街头),它依然能工作,不需要重新训练。这就像一位老司机,刚学会开左舵车,下一秒开右舵车也能立刻上手。

总结

简单来说,这篇论文解决了一个大问题:如何让自动驾驶汽车像人类一样,在有限的存储空间下,一边开车一边不断学习新出现的物体,同时不忘掉老本领。

它不再是一个死板的程序,而是一个会自我进化、有常识判断力、且懂得“抓重点复习”的智能驾驶助手。这为未来自动驾驶真正进入复杂多变的现实世界铺平了道路。