PromptStereo: Zero-Shot Stereo Matching via Structure and Motion Prompts

本文提出了一种名为 PromptStereo 的零样本立体匹配方法,通过设计基于单目深度基础模型解码器的提示循环单元(PRU),将单目结构提示与立体运动提示融入迭代细化过程,在保留单目先验的同时引入绝对立体尺度信息,从而实现了跨数据集的卓越零样本泛化性能。

Xianqi Wang, Hao Yang, Hangtian Wang, Junda Cheng, Gangwei Xu, Min Lin, Xin Yang

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 PromptStereo 的新技术,它的核心目标是让计算机像人眼一样,仅仅通过看两张照片(立体图像),就能精准地“看”出物体的远近(深度信息),而且不需要针对特定场景重新训练(即“零样本”能力)。

为了让你更容易理解,我们可以把立体匹配(Stereo Matching)想象成**“盲人摸象”的升级版**,或者更准确地说,是**“双筒望远镜找不同”的游戏**。

以下是用生活化的比喻和通俗语言对这篇论文的解读:

1. 核心问题:以前的“老手”遇到了瓶颈

以前的立体匹配方法(比如 RAFT-Stereo 等)就像是一个经验丰富的老工匠

  • 做法:它通过不断重复“看左图、看右图、对比差异、修正误差”这个过程(迭代)来算出深度。
  • 缺点:这个老工匠虽然熟练,但他记性不好,且思维僵化
    • 他只能处理训练时见过的场景(比如只在实验室练过手,到了野外就懵了)。
    • 他用来“记笔记”和“修正错误”的大脑模块(论文里叫 GRU)太小了,装不下太多复杂的几何知识。一旦遇到光线不好、物体透明或者没有纹理的墙壁,他就容易算错。

2. 新方案:PromptStereo 的“超级大脑”

这篇论文提出了一种新架构,相当于给老工匠换了一个拥有“超级直觉”的导师,并教他一套新的**“提示词”学习方法**。

核心创新一:Prompt Recurrent Unit (PRU) —— 换了一个“博学的大脑”

  • 以前的做法:老工匠的大脑(GRU)是专门为了立体匹配从头训练的,里面没有关于“世界长什么样”的通用知识。
  • 现在的做法:作者直接借用了单目深度基础模型(Monocular Depth Foundation Models,比如 Depth Anything)的“大脑”作为核心。
    • 比喻:这就好比老工匠不再从零开始学,而是直接聘请了一位见过全世界所有风景的“地理学家”当导师。这位导师脑子里已经装满了关于物体形状、远近的通用知识(先验知识)。
    • 效果:即使没见过的场景(比如从未见过的透明玻璃杯),这位导师也能凭借通用的几何直觉猜个八九不离十。

核心创新二:Structure Prompt & Motion Prompt —— 聪明的“提示词”

既然请来了“地理学家”,怎么把立体图像的信息告诉他呢?以前的方法像是硬把数据塞进他脑子里,容易把原有的知识搞乱。

  • 新方法(Prompt):作者设计了两个“提示词”(Prompts),像便利贴一样贴在导师的笔记上:
    1. 结构提示 (Structure Prompt):告诉导师“这里有个物体的轮廓,虽然立体图看不太清,但单眼看到的结构是这样的”。
    2. 运动提示 (Motion Prompt):告诉导师“左右眼看到的差异(视差)是这样的,请结合你的经验修正一下”。
  • 比喻:这就像你在做数学题时,老师不直接给你答案,而是在旁边贴个便利贴提示你:“注意,这个图形是三角形的”或者“这里有个直角”。这样既利用了老师的知识,又不会干扰你的解题思路。

核心创新三:Affine-Invariant Fusion —— 先“对齐”再“融合”

在开始修正之前,需要把“立体图算出的距离”和“单眼看到的深度”统一到一个标准上。

  • 比喻:就像要把**“米”“英尺”**换算成同一个单位才能相加。作者发明了一种“仿射不变融合”方法,先把两个不同的深度图“对齐”(不管比例尺和偏移量),然后再把它们融合在一起。这保证了初始的估算不会跑偏太远。

3. 为什么它这么厉害?(实验结果)

  • 零样本能力(Zero-Shot):这是最牛的地方。以前模型在“室内”训练,去“室外”开车就瞎了。PromptStereo 因为借用了“地理学家”的通用知识,在没见过的场景(如雨天、透明物体、反光表面)下表现依然出色
  • 速度快:虽然大脑变聪明了,但作者优化了计算流程,去掉了那些笨重的“重置门”(Reset Gate),让迭代修正变得更直接、更快速。
  • 结果:在多个公开测试集上,它的准确率(Bad 2.0 等指标)都刷新了纪录,特别是在那些最难搞的“透明物体”和“反光屏幕”场景下,表现远超之前的冠军模型。

总结

简单来说,PromptStereo 就是做了一件很聪明的事:
它不再让计算机死记硬背特定的场景,而是利用一个已经“见多识广”的单眼深度模型作为底座,然后通过**“提示词”**(结构提示和运动提示)把立体视觉的线索巧妙地引导进去。

这就好比:

以前是让一个刚毕业的学生去修车,遇到没见过的车型就束手无策;
现在是让一个拥有 20 年修车经验的老师傅(基础模型)来修车,再给他递一张**“这张图有点反光,注意看边缘”**的便签(Prompt)。

结果就是:修得更快、更准,而且什么车型都能修!

这篇论文证明了,在立体匹配领域,“提示词引导的迭代修正”(Prompt-guided iterative refinement)是一个非常有前途的新方向。