DriveTok: 3D Driving Scene Tokenization for… — 通俗解释

Each language version is independently generated for its own context, not a direct translation.

想象一下，自动驾驶汽车就像是一个拥有“六只眼睛”的超级侦探，它时刻盯着周围的世界，试图理解路况、识别行人并规划路线。

然而，传统的自动驾驶系统在处理这些视觉信息时，就像是一个笨拙的翻译官：它把每只眼睛看到的画面（6 个摄像头）分别切成无数个小方块（像素），然后一个个单独翻译。这样做有两个大问题：

效率低：信息量太大，处理起来慢吞吞。
没大局观：它只看到了“左边的树”和“右边的树”，却很难瞬间明白“这两棵树其实是一排树，中间夹着一条路”。它缺乏对3D 空间的整体感知。

这篇论文提出的 DriveTok，就是为了解决这个痛点而诞生的"智能空间翻译官"。

🚗 DriveTok 是什么？

你可以把 DriveTok 想象成一个超级高效的“乐高积木打包员”。

传统的做法是把 6 个摄像头的画面拆成几百万个零散的“像素砖块”。而 DriveTok 的做法是：

先观察：它利用一个强大的“基础视觉大脑”（预训练模型）先看懂画面里有什么（是车、人还是树）。
再打包：它不关心画面是 1080P 还是 4K，也不管你有几个摄像头。它直接把周围的世界压缩成固定数量的"3D 场景令牌”（Scene Tokens）。

比喻：就像把整个街景压缩成一个只有 100 块的“乐高模型”。无论原始照片多大，这个模型的大小永远不变，而且每一块积木都精准地代表了现实世界中的一个 3D 位置。

🛠️ 它是如何工作的？（三个关键步骤）

1. 把“照片”变成“空间地图” (3D 场景编码)

传统的 AI 看照片是平面的（2D）。DriveTok 则像是一个3D 建模师。
它利用一种叫"3D 可变形注意力”的技术，把 6 个摄像头看到的碎片信息，像拼图一样，精准地拼合到一个虚拟的 3D 网格中。

比喻：就像你手里拿着 6 张不同角度的照片，DriveTok 能瞬间在脑海里构建出一个立体的、旋转的 3D 房间模型，而不是让你一张张看图。

2. 只有“看得见”的才说话 (空间感知解码)

这是 DriveTok 最聪明的地方。在现实世界中，如果你站在 A 点，你肯定看不到被墙挡住的 B 点。
DriveTok 的解码器有一个**“可见性过滤器”**。

比喻：想象一个会议室，只有当一个人（摄像头）真的能看到某个物体（场景令牌）时，他们才能对话。如果物体被挡住了，摄像头就“闭嘴”。这防止了 AI 产生幻觉（比如把墙后面的东西误认为是眼前的），保证了空间逻辑的严谨性。

3. 一边“看图”一边“思考” (多任务联合训练)

DriveTok 在训练时，不是只学“把图还原得漂亮”，而是同时做四件事：

还原图片：能不能把原图高清地画出来？（保证纹理细节）
猜深度：这个东西离我有多远？（保证距离感）
认物体：这是车还是人？（保证语义理解）
填 3D 格子：这个 3D 空间里哪里是空的，哪里被占据了？（保证 3D 结构）

比喻：就像一个学生，老师不仅让他背课文（还原图片），还让他画地图（深度预测）、写故事（语义理解）和搭积木（3D occupancy）。通过这种“全能训练”，它学到的“场景令牌”既懂细节，又懂空间，还懂逻辑。

🌟 为什么它很厉害？

通用性强：不管你的车装了几个摄像头，或者摄像头分辨率多高，DriveTok 输出的“场景令牌”数量是固定的。这让它非常容易接入未来的大模型（比如能跟车对话的 AI）。
既懂“皮”又懂“骨”：以前的方法要么只关注图片好不好看（皮），要么只关注 3D 结构对不对（骨）。DriveTok 把两者完美结合，生成的令牌既保留了丰富的纹理（皮），又拥有精准的 3D 几何结构（骨）。
为未来铺路：它是为**“世界模型”和“视觉 - 语言 - 动作模型”**准备的接口。
- 比喻：以前的自动驾驶像是在“背题库”，遇到没见过的情况就懵了。DriveTok 让自动驾驶拥有了一个**“通用的空间记忆库”**。未来的 AI 可以直接读取这个记忆库，进行复杂的推理，比如：“如果刚才那辆车没急刹车，后面会发生什么？”或者“如果我想去那个路口，该怎么走？”

总结

DriveTok 就像是为自动驾驶汽车打造了一个**“万能的空间翻译器”**。它把杂乱无章的 6 路摄像头画面，压缩成了整齐、立体、懂语义的“乐高积木块”。

这让自动驾驶系统不再只是“看照片”，而是真正开始**“理解世界”**，为未来更聪明、更像人类的自动驾驶大脑打下了坚实的基础。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

随着自动驾驶系统向基于推理的范式（Reasoning-based Pipeline）转变，特别是视觉 - 语言 - 动作模型（VLAs）和世界模型（World Models）的兴起，如何高效地表示传感器输入成为关键挑战。

现有局限：
- 2D 单视图限制： 现有的视觉 Tokenizer（如 VQ-VAE, VQ-GAN 等）主要针对单目、2D 图像设计，将图像分割为独立的 2D Patch。这种方法无法捕捉自动驾驶至关重要的3D 空间结构信息，导致多视图间的不一致性。
- 效率低下： 自动驾驶车辆通常配备多路高分辨率相机。对每张图片单独进行 Tokenization 会产生大量 Token，导致计算成本高昂（ $O(N \cdot H \cdot W)$ ），且重叠区域存在冗余表示，难以扩展到大模型。
- 语义与几何割裂： 现有方法往往专注于特定任务（如仅检测或仅重建），缺乏一种能够同时编码低层纹理（用于重建）和高层语义（用于理解）的统一场景表示。
核心目标： 设计一种高效的 3D 驾驶场景 Tokenizer，能够将多路相机输入转换为统一、分辨率无关、相机数量无关的场景 Token，同时保留丰富的几何、语义和纹理信息，以服务于下游的感知、推理和规划任务。

2. 方法论 (Methodology)

DriveTok 提出了一种统一的 3D 驾驶场景 Tokenization 框架，其核心架构包含三个主要模块：语义感知场景编码器、空间感知多视图 Transformer 和 多任务解码头。

2.1 3D 驾驶场景 Tokenization (3D Driving Scene Tokenization)

输入处理： 利用预训练的视觉基础模型（Vision Foundation Model，如 DINOv3）提取多路相机的语义丰富特征。
3D 空间映射： 通过**3D 可变形交叉注意力（3D Deformable Cross-Attention）**机制，将多视图特征投影到固定的全局场景网格（Scene Grid）中。
- 利用相机内参和外参，将 3D 场景点投影到 2D 图像平面。
- 通过双线性采样和可变形注意力聚合特征，生成统一场景 Token（Unified Scene Tokens）。
优势： 生成的 Token 数量固定（由网格分辨率决定），与输入图像分辨率和相机数量解耦，确保了跨视图的一致性。

2.2 空间感知多视图解码器 (Spatial-Aware Multi-View Decoder)

交互机制： 引入一个基于 ViT 的多视图 Transformer，在场景 Token（代表 3D 空间单元）和视图 Token（代表 2D 图像 Patch）之间进行双向交互。
可见性引导注意力（Visibility-Guided Attention）：
- 这是该方法的关键创新。为了防止物理上不可见的区域进行错误交互，系统预计算了一个可见性掩码（Visibility Mask）。
- 只有当某个 3D 场景单元在特定相机视角下可见时，才允许它们之间的注意力交互。
- 视图 Token 还融合了Plücker 射线嵌入，以区分不同视角但外观相似的 2D 区域，增强几何先验。
作用： 确保场景 Token 聚合来自可见相机的细节，同时视图 Token 获得全局 3D 布局的上下文，实现几何一致的跨视图理解。

2.3 统一重建与理解 (Unified Reconstruction and Understanding)

通过联合多任务训练（Joint Multi-Task Training），迫使场景 Token 学习综合信息：

图像重建 (Image Reconstruction)： 使用 DPT 解码器从视图 Token 重建 RGB 图像，损失函数包含像素级 L1、感知损失 (LPIPS) 和对抗损失 (GAN)。
深度预测 (Depth Prediction)： 利用 MoGe-2 生成的稠密伪深度和稀疏 LiDAR 深度进行对齐，预测度量尺度的深度图。
语义预测 (Semantic Prediction)： 将 LiDARSeg 标签投影到图像平面，预测语义分割图。
3D 占据预测 (3D Occupancy Prediction)： 直接在场景 Token 上通过 3D 头预测体素级的语义占据（Semantic Occupancy），增强 3D 空间推理能力。
语义正则化 (Semantic Regularization)： 在潜在空间中对场景 Token 施加语义约束，防止结构破坏，确保 Token 编码明确的语义结构。

3. 关键贡献 (Key Contributions)

首个统一的 3D 驾驶场景 Tokenizer： 提出了 DriveTok，将多视图输入转换为与分辨率和相机数量无关的统一场景 Token，解决了现有 2D Tokenizer 在自动驾驶场景中的效率低和几何不一致问题。
空间感知与可见性引导机制： 设计了带有可见性掩码的多视图 Transformer，强制模型关注物理上可见的 3D 区域，显著提升了场景 Token 的几何一致性和空间推理能力。
多任务联合学习框架： 通过联合优化图像重建、深度、语义和 3D 占据预测任务，成功让统一的场景 Token 同时编码了**纹理（Texture）、几何（Geometry）和语义（Semantics）**信息。
广泛的实验验证： 在 nuScenes 数据集上证明了该方法在图像重建、深度估计、语义分割和 3D 占据预测等多个任务上的优越性能，特别是达到了 SOTA 级别的 3D 语义占据预测效果。

4. 实验结果 (Results)

实验在 nuScenes 数据集上进行，主要结果如下：

图像重建： 在 6 路相机输入下，DriveTok 的 PSNR 和 SSIM 指标与现有的单目 Tokenizer（如 VQGAN）及 BEV-VAE 相当，证明了其能够保留细粒度的外观信息并维持跨视图一致性。
深度预测：
- 在单目深度估计对比中，DriveTok 的 AbsRel 误差最低（0.08）， $\delta < 1.25$ 准确率最高（0.93），远超 UniDepthV2 和 Metric3D 等 SOTA 单目方法。
- 在多视图深度预测对比中，同样显著优于 SurroundDepth、OmniNWM 等方法。
3D 占据预测： 在 3D 语义占据预测任务中，DriveTok 的 mIoU 达到 20.06%，IoU 达到 33.32%，优于 BEVFormer、TPVFormer、GaussianFormer 和 QuadricFormer 等专门针对占据预测设计的模型。
消融实验：
- 可见性引导： 移除可见性掩码会导致场景 Token 过拟合图像纹理，几何理解能力（IoU）大幅下降（从 12.81 降至 5.32）。
- 多任务训练： 随着任务从仅重建增加到包含深度、语义和占据预测，场景 Token 的几何和语义理解能力（IoU/mIoU）显著提升，尽管图像重建质量略有下降，但这种权衡是值得的。

5. 意义与展望 (Significance)

为自动驾驶大模型提供通用接口： DriveTok 生成的统一场景 Token 可以作为 Vision-Language-Action (VLA) 模型和驾驶世界模型的高效视觉接口。这些 Token 既紧凑又富含语义，能够支持开放式的驾驶问答、反事实推理、多步规划和视频预测等高级任务。
统一感知与推理： 该方法打破了传统自动驾驶中感知（Perception）与推理（Reasoning）的界限，通过共享的空间记忆（Spatial Memory），使高层推理和低层感知能够协同工作。
未来方向： 论文提出未来可结合时序建模、多模态传感器（激光雷达、雷达）以及生成式能力（场景编辑、未来合成），构建更全面的驾驶基础模型（Driving Foundation Models）。

总结： DriveTok 通过创新的 3D Tokenization 机制和联合多任务学习，成功构建了一种能够同时理解驾驶场景几何结构与语义内容的统一表示，为下一代基于大模型的自动驾驶系统奠定了坚实的视觉基础。

DriveTok: 3D Driving Scene Tokenization for Unified Multi-View Reconstruction and Understanding