DriveTok: 3D Driving Scene Tokenization for Unified Multi-View Reconstruction and Understanding

DriveTok 提出了一种高效的 3D 驾驶场景 Tokenizer,通过结合视觉基础模型与 3D 形变交叉注意力机制,实现了统一多视图重建与理解,并在图像重建、语义分割、深度预测及 3D 占据预测等多个任务中展现出优异性能。

Dong Zhuo, Wenzhao Zheng, Sicheng Zuo, Siming Yan, Lu Hou, Jie Zhou, Jiwen Lu

发布于 2026-03-20
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

想象一下,自动驾驶汽车就像是一个拥有“六只眼睛”的超级侦探,它时刻盯着周围的世界,试图理解路况、识别行人并规划路线。

然而,传统的自动驾驶系统在处理这些视觉信息时,就像是一个笨拙的翻译官:它把每只眼睛看到的画面(6 个摄像头)分别切成无数个小方块(像素),然后一个个单独翻译。这样做有两个大问题:

  1. 效率低:信息量太大,处理起来慢吞吞。
  2. 没大局观:它只看到了“左边的树”和“右边的树”,却很难瞬间明白“这两棵树其实是一排树,中间夹着一条路”。它缺乏对3D 空间的整体感知。

这篇论文提出的 DriveTok,就是为了解决这个痛点而诞生的"智能空间翻译官"。

🚗 DriveTok 是什么?

你可以把 DriveTok 想象成一个超级高效的“乐高积木打包员”

传统的做法是把 6 个摄像头的画面拆成几百万个零散的“像素砖块”。而 DriveTok 的做法是:

  1. 先观察:它利用一个强大的“基础视觉大脑”(预训练模型)先看懂画面里有什么(是车、人还是树)。
  2. 再打包:它不关心画面是 1080P 还是 4K,也不管你有几个摄像头。它直接把周围的世界压缩成固定数量的"3D 场景令牌”(Scene Tokens)
  • 比喻:就像把整个街景压缩成一个只有 100 块的“乐高模型”。无论原始照片多大,这个模型的大小永远不变,而且每一块积木都精准地代表了现实世界中的一个 3D 位置。

🛠️ 它是如何工作的?(三个关键步骤)

1. 把“照片”变成“空间地图” (3D 场景编码)

传统的 AI 看照片是平面的(2D)。DriveTok 则像是一个3D 建模师
它利用一种叫"3D 可变形注意力”的技术,把 6 个摄像头看到的碎片信息,像拼图一样,精准地拼合到一个虚拟的 3D 网格中。

  • 比喻:就像你手里拿着 6 张不同角度的照片,DriveTok 能瞬间在脑海里构建出一个立体的、旋转的 3D 房间模型,而不是让你一张张看图。

2. 只有“看得见”的才说话 (空间感知解码)

这是 DriveTok 最聪明的地方。在现实世界中,如果你站在 A 点,你肯定看不到被墙挡住的 B 点。
DriveTok 的解码器有一个**“可见性过滤器”**。

  • 比喻:想象一个会议室,只有当一个人(摄像头)真的能看到某个物体(场景令牌)时,他们才能对话。如果物体被挡住了,摄像头就“闭嘴”。这防止了 AI 产生幻觉(比如把墙后面的东西误认为是眼前的),保证了空间逻辑的严谨性。

3. 一边“看图”一边“思考” (多任务联合训练)

DriveTok 在训练时,不是只学“把图还原得漂亮”,而是同时做四件事:

  • 还原图片:能不能把原图高清地画出来?(保证纹理细节)
  • 猜深度:这个东西离我有多远?(保证距离感)
  • 认物体:这是车还是人?(保证语义理解)
  • 填 3D 格子:这个 3D 空间里哪里是空的,哪里被占据了?(保证 3D 结构)

比喻:就像一个学生,老师不仅让他背课文(还原图片),还让他画地图(深度预测)、写故事(语义理解)和搭积木(3D occupancy)。通过这种“全能训练”,它学到的“场景令牌”既懂细节,又懂空间,还懂逻辑。

🌟 为什么它很厉害?

  1. 通用性强:不管你的车装了几个摄像头,或者摄像头分辨率多高,DriveTok 输出的“场景令牌”数量是固定的。这让它非常容易接入未来的大模型(比如能跟车对话的 AI)。
  2. 既懂“皮”又懂“骨”:以前的方法要么只关注图片好不好看(皮),要么只关注 3D 结构对不对(骨)。DriveTok 把两者完美结合,生成的令牌既保留了丰富的纹理(皮),又拥有精准的 3D 几何结构(骨)。
  3. 为未来铺路:它是为**“世界模型”“视觉 - 语言 - 动作模型”**准备的接口。
    • 比喻:以前的自动驾驶像是在“背题库”,遇到没见过的情况就懵了。DriveTok 让自动驾驶拥有了一个**“通用的空间记忆库”**。未来的 AI 可以直接读取这个记忆库,进行复杂的推理,比如:“如果刚才那辆车没急刹车,后面会发生什么?”或者“如果我想去那个路口,该怎么走?”

总结

DriveTok 就像是为自动驾驶汽车打造了一个**“万能的空间翻译器”**。它把杂乱无章的 6 路摄像头画面,压缩成了整齐、立体、懂语义的“乐高积木块”。

这让自动驾驶系统不再只是“看照片”,而是真正开始**“理解世界”**,为未来更聪明、更像人类的自动驾驶大脑打下了坚实的基础。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →