LiDAR Prompted Spatio-Temporal Multi-View Stereo for Autonomous Driving

本文提出了 DriveMVS 框架,通过利用稀疏但精确的 LiDAR 观测作为几何提示来锚定绝对尺度,并结合多视图与多时域信息的深度融合,实现了自动驾驶场景下兼具高精度、时空一致性及跨域泛化能力的度量深度估计。

Qihao Sun, Jiarun Liu, Ziqian Ni, Jianyun Xu, Tao Xie, Lijun Zhao, Ruifeng Li, Sheng Yang

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 DriveMVS 的新系统,它的目标是让自动驾驶汽车能更聪明、更准确地“看”懂周围的世界,特别是判断物体离自己有多远(深度感知)。

为了让你轻松理解,我们可以把自动驾驶汽车想象成一个正在学习开车的“新手司机”,而 DriveMVS 就是这位司机的超级大脑

1. 为什么需要这个新大脑?(现有的问题)

以前的“司机”们(现有的深度估计技术)各有毛病:

  • 单眼司机(单目深度估计): 就像只用一只眼睛看路。虽然他们看过很多书(大数据训练),认路能力很强,但分不清远近。比如,他们可能觉得远处的树和近处的树一样大,导致无法判断真实距离(缺乏“度量”准确性)。
  • 多眼司机(多视图立体视觉 MVS): 像是有好几只眼睛同时看,通过三角测量能算出距离。但在**堵车(移动慢)或者看白墙(没纹理)**的时候,眼睛会打架,算不出距离,或者画面会闪烁(缺乏时间稳定性)。
  • 带雷达的司机(结合 LiDAR): 他们手里拿着激光雷达(LiDAR),能测出精准距离。但激光雷达有个缺点:它只能照到一部分地方(比如被树挡住了,或者光线太暗),而且数据是断断续续的。如果只依赖雷达,一旦雷达“失明”了,司机就慌了。

DriveMVS 的突破在于: 它把以上所有优点都结合了,既知道“大概有多远”(多视图),又有“精准标尺”(激光雷达),还能保证“看路不眨眼”(时间稳定)。

2. DriveMVS 是怎么工作的?(核心魔法)

DriveMVS 用了三个聪明的招数,我们可以用**“装修房子”**来打比方:

第一招:把“标尺”钉在墙上(Prompt-Anchored Cost Volume)

  • 比喻: 想象你要给房间贴壁纸(重建 3D 场景)。以前,工人(AI)只能凭感觉估算墙有多高,容易贴歪。
  • DriveMVS 的做法: 它手里拿着激光雷达提供的**“精准标尺”(Sparse Metric Prompts)。它不是等贴完再量,而是在贴壁纸的过程中,直接把标尺钉在墙上作为锚点**。
  • 效果: 即使周围一片模糊(低纹理),只要标尺钉在那,整个房间的尺度就不会乱。这解决了“知道大概形状但不知道真实大小”的问题。

第二招:三位一体的“装修顾问团”(Triple-Cues Combiner)

  • 比喻: 装修时,光有标尺还不够,还需要有人看图纸、有人看结构。DriveMVS 组建了一个三人顾问团
    1. 几何顾问(Cost Volume Cues): 负责看多只眼睛看到的几何关系,确保结构合理。
    2. 经验顾问(Mono Cues): 这是一个看过无数风景的“老法师”(基于大模型),它知道“树通常长什么样”、“路通常在哪里”,提供宏观的结构感。
    3. 精准顾问(Metric Cues): 就是那个拿着激光雷达标尺的人,提供绝对精准的距离数据。
  • 做法: 这个顾问团不是各干各的,而是通过一个超级会议(Transformer),把三人的意见融合起来。如果几何顾问在雾天看不准,精准顾问就出来纠正;如果精准顾问被树挡住了,经验顾问就靠常识补全。
  • 效果: 无论环境多恶劣,都能得出最靠谱的结论。

第三招:录像回放,拒绝“鬼影”(Spatio-Temporal Decoder)

  • 比喻: 以前的系统看路是一帧一帧看的(像看幻灯片),上一秒树在左边,下一秒树突然跳到右边,画面会闪烁(Flicker),让人晕车。
  • DriveMVS 的做法: 它把看路变成了**“看连续电影”。它不仅看当前这一秒,还会参考前一秒和后一秒**的画面,并结合汽车移动的方向(运动感知)。
  • 效果: 就像看高清视频一样,树木和建筑在画面中平滑移动,没有闪烁,非常稳定。

3. 它有多厉害?(实验结果)

论文在几个著名的自动驾驶测试场(如 KITTI, Waymo)上做了测试,DriveMVS 表现惊人:

  • 更准: 测出来的距离误差极小,比以前的“冠军”还要好。
  • 更稳: 在车停着不动(静止场景)或者下大雨、天黑的时候,它依然能看得清清楚楚,不会像其他系统那样“发疯”或算出离谱的距离。
  • 更抗造: 即使激光雷达被挡住了一部分(比如只有 4 条线,或者被树遮住了 50%),它依然能利用多视角的线索,把缺失的部分“脑补”得准确无误。

4. 总结

DriveMVS 就像是给自动驾驶汽车装上了一套**“既懂几何、又有标尺、还能连续录像”的超级视觉系统**。

它不再依赖单一的传感器,而是聪明地把稀疏的精准数据(激光雷达)丰富的视觉线索(摄像头)以及时间上的连续性完美融合。这意味着未来的自动驾驶汽车在复杂的路况下(如堵车、恶劣天气、传感器故障)能更安全、更可靠地行驶,离真正的“无人驾驶”又近了一大步。