Dr.Occ: Depth- and Region-Guided 3D Occupancy from Surround-View Cameras for Autonomous Driving

本文提出了 Dr. Occ 框架,通过引入利用 MoGe-2 深度线索的 D²-VFormer 解决视变换几何错位问题,并结合受混合专家启发的 R²-EFormer 应对空间类别不平衡,从而在纯视觉 3D 占据预测任务中显著提升了性能。

Xubo Zhu, Haoyang Zhang, Fei He, Rui Wu, Yanhu Shan, Wen Yang, Huai Yu

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

想象一下,自动驾驶汽车就像是一个在复杂城市里开车的“盲人”,它必须依靠摄像头(眼睛)来构建周围世界的3D 立体地图。这张地图不仅要告诉车“哪里是空的”(可以开),还要告诉车“那里有什么”(是行人、车辆还是树木)。

这篇论文提出的 Dr.Occ,就是给这个“盲人”装上了一副超级智能眼镜和一套专家分工系统,让它看得更准、分得更清。

我们可以把自动驾驶的感知过程想象成**“在迷雾中拼凑一幅巨大的立体拼图”**。以前的方法主要面临两个大难题,而 Dr.Occ 正好解决了这两个问题:

难题一:拼图拼歪了(几何对齐问题)

以前的做法:
以前的系统就像是一个近视眼画家。它试图把平面的照片(2D)强行拉伸成 3D 的积木块(体素)。因为看不清深度(距离),它经常把远处的树画得离车很近,或者把近处的路画得忽高忽低。这就导致拼出来的地图是歪歪扭扭的,车开上去容易撞车。

Dr.Occ 的解法:深度引导的“透视尺” (D2-VFormer)
Dr.Occ 引入了一个外部的“深度大师”(MoGe-2 模型),它就像给画家提供了一把高精度的透视尺

  • 核心创意: 它不试图去画每一块积木(因为 90% 的空间其实是空的,画了也是浪费)。相反,它先用这把尺子量出哪些地方是有东西的,生成一张“非空区域地图”。
  • 比喻: 就像装修房子,以前是先把整个房间填满石膏,再慢慢挖空;现在 Dr.Occ 是先画好**“哪里需要砌墙”的草图**,然后只在这些地方精准地放积木。
  • 效果: 这样拼出来的 3D 地图,几何结构非常精准,路是平的,树是直的,不再歪歪扭扭。

难题二:拼图分类混乱(语义不平衡问题)

以前的做法:
想象一下,你在拼这幅巨大的立体拼图。大部分地方是“空地”(路面),只有很少的地方是“行人”或“自行车”。以前的系统就像是一个平均主义的老师,它用同样的精力去教学生认识“空地”和“行人”。结果就是:学生把“空地”认得很熟,但一看到稀有的“行人”或“远处的树”就傻眼了,因为它们在数据里太少了(长尾问题)。而且,不同高度的物体(比如地上的车 vs 天上的鸟)混在一起学,效率很低。

Dr.Occ 的解法:区域专家分工系统 (R-EFormer & R2-EFormer)
Dr.Occ 引入了**“专家分工”的概念,就像把一个大公司分成了几个专业部门**。

  • 核心创意: 它发现,不同的物体喜欢待在不同的地方。
    • 低处专家: 专门负责看路面、路障(离地近)。
    • 高处专家: 专门负责看树木、建筑物(离地高)。
    • 近处专家: 专门盯着眼前的车和人。
    • 远处专家: 专门扫描地平线。
  • 比喻: 以前是一个全能但平庸的保安在巡逻,什么都能看但什么都不精。现在 Dr.Occ 组建了一支特种部队
    • R-EFormer(区域专家): 像是一个分片管理的经理,把 3D 空间切分成“近/中/远”和“低/中/高”的网格,每个网格派一个专属专家去处理。这样,负责“行人”的专家就能专心研究行人,不会被“空地”干扰。
    • R2-EFormer(递归专家): 这是一个更聪明的**“层层筛选”机制。它不一次性把所有区域都看完,而是像剥洋葱一样:先看一眼全图,发现哪里模糊不清(比如夜晚的花坛、复杂的 sidewalk),就专门把注意力集中**在这些难搞的区域,反复打磨,直到看清为止。
  • 效果: 这种分工让系统对稀有物体(如行人、自行车)的识别率大幅提升,不再因为数据少而忽略它们。

总结:Dr.Occ 到底强在哪?

如果把自动驾驶的感知系统比作一个**“构建 3D 世界的团队”**:

  1. 以前的团队: 大家一拥而上,凭感觉把照片拉伸成 3D,经常把距离搞错;而且所有人都在学同样的东西,导致对少见物体(如行人)反应迟钝。
  2. Dr.Occ 团队:
    • 第一步(深度引导): 先派一个**“测量员”**拿着高精度尺子,把“哪里需要干活”圈出来,确保地基(几何结构)打得稳、不歪。
    • 第二步(区域专家): 再派**“特种专家小组”,根据物体的高度和距离,分头去攻克不同的区域。遇到难搞的角落(如夜晚的模糊区域),就启动“递归模式”**,反复精修,直到完美。

最终成果:
在著名的测试(Occ3D-nuScenes)中,Dr.Occ 让原本就很强的 baseline 模型(BEVDet4D)的准确率提升了 7.43%。这不仅仅是数字的提升,意味着自动驾驶汽车能更清楚地看到路边的行人、更准确地判断树木的高度,从而在复杂的城市环境中更安全、更聪明地行驶

简单来说,Dr.Occ 就是让自动驾驶的“眼睛”不仅看得准(几何对齐),而且看得懂(语义平衡),特别是对于那些容易被忽略的“小角色”和“远距离目标”。