ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving

本文提出了 ImagiDrive,一种将视觉语言模型驱动的决策智能体与驾驶世界模型驱动的场景想象器相结合的统一框架,通过“想象 - 规划”闭环迭代优化自动驾驶决策,并在 nuScenes 和 NAVSIM 数据集上验证了其优越性。

Jingyu Li, Bozhou Zhang, Xin Jin, Jiankang Deng, Xiatian Zhu, Li Zhang

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 ImagiDrive 的自动驾驶新框架。为了让你轻松理解,我们可以把自动驾驶汽车想象成一个正在学开车的“超级司机”

以前的自动驾驶系统(比如现在的特斯拉或 Waymo)主要靠两样东西:

  1. 像人一样的大脑(VLM):能看懂路牌、理解“前面有红灯,我要停车”这种复杂的逻辑,但有时候对未来的画面想得不够具体。
  2. 像水晶球一样的预测器(DWM):能根据现在的画面,像放电影一样“脑补”出未来几秒会发生什么(比如“如果我不刹车,两秒后就会撞车”),但它有时候缺乏对整体交通规则的理解。

ImagiDrive 的核心理念就是:让“大脑”和“水晶球”联手,形成一个“边想边规划”的循环。

🚗 核心故事:一个“边想边开”的司机

想象一下,你开车到了一个复杂的十字路口,旁边有一辆对向来车。

1. 第一阶段:初步打算(大脑先动)

你的“大脑”(VLM 驱动的智能体)看了一眼眼前的路况,迅速做出一个初步决定:

“嗯,我要直行,然后右转。先保持速度,等会儿打转向灯。”
(这就好比司机心里有个初步的路线图。)

2. 第二阶段:脑补未来(水晶球启动)

这时候,ImagiDrive 不会直接执行这个决定,而是先让“水晶球”(场景想象器)介入。它根据刚才的初步决定,在脑海里快速生成未来几秒的画面

(想象画面:如果我现在保持速度右转,那辆对向车会不会撞到我?画面显示:会!两秒后就会发生碰撞。)

3. 第三阶段:修正计划(循环迭代)

看到“脑补”出来的危险画面后,大脑立刻意识到:“哎呀,刚才的计划不行!”于是它重新思考:

“不行,我得减速,等那辆车过去了再转。”
(大脑根据“脑补”的画面,修正了路线。)

4. 第四阶段:再次确认(循环继续)

系统会再次让“水晶球”生成新画面:

(新画面:减速等待,安全通过。)
如果画面很安全,系统就确认这个计划;如果还有风险,就继续循环,直到找到最完美的方案。


🛠️ 它是如何做到既聪明又快速的?

如果每次都这样“想一遍、看一遍、再想一遍”,开车可能会慢得像蜗牛。为了解决这个问题,作者设计了两招“独门秘籍”:

秘籍一:见好就收(Early Stopping)

  • 比喻:就像你做题时,如果连续三次算出来的答案都一样,你就没必要再算第四次了,直接交卷。
  • 作用:系统会检查:“我刚才改了几次路线?如果路线已经不再变化了,说明已经想得很清楚了,直接执行,不用再浪费时间循环了。”这大大节省了计算时间。

秘籍二:择优录取(Trajectory Selection)

  • 比喻:想象你让三个朋友分别给你指路。
    • 朋友 A 说:“往左拐。”
    • 朋友 B 说:“往左拐,但别太急。”
    • 朋友 C 说:“往右拐。”
    • 这时候,系统不会随便选一个,而是看谁的方向最符合大家“往左走”的主流趋势,并且最安全。
  • 作用:系统会把所有生成的路线放在一起比较,剔除那些“忽左忽右”或“方向不一致”的奇怪路线,只保留最稳健、最安全的那一条。

🏆 效果怎么样?

作者在真实的驾驶数据集(nuScenes 和 NAVSIM)上做了测试,结果非常棒:

  1. 更安全:在复杂的路口和转弯场景下,它比以前的方法撞车率更低。因为它能“预知”危险,提前避让。
  2. 更聪明:它不仅能看到眼前的车,还能理解“如果我不减速,两秒后会怎样”这种因果关系。
  3. 更灵活:无论是简单的直行,还是复杂的避让,它都能通过“想象 - 规划”的循环找到最佳方案。

📝 总结

ImagiDrive 就像是给自动驾驶汽车装上了一个**“预演未来”的超能力**。

以前的车是“看到什么开什么”,现在的 ImagiDrive 是**“先在心里把未来演一遍,发现不对劲就改,直到演得完美无缺了,再真正开出去”**。这种“边想象边规划”的机制,让自动驾驶在复杂的路况下变得更加安全、可靠和智能。