StereoAdapter-2: Globally Structure-Consistent Underwater Stereo Depth Estimation

本文提出了 StereoAdapter-2,通过引入基于选择性状态空间模型的四向扫描 ConvSS2D 算子以替代传统 GRU 实现全局结构一致的高效长程视差传播,并结合大规模合成数据集 UW-StereoDepth-80K 与动态 LoRA 适配,显著提升了水下立体深度估计的零样本性能与鲁棒性。

Zeyu Ren, Xiang Li, Yiran Wang, Zeyu Zhang, Hao Tang

发布于 2026-02-20
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 StereoAdapter-2 的新系统,它的任务是教机器人像人类一样,在浑浊、光线复杂的水下环境中,通过两只“眼睛”(立体相机)精准地判断物体的距离(深度)。

为了让你轻松理解,我们可以把这项技术想象成教一个刚下海的“潜水员”如何看清海底世界

1. 遇到的难题:水下为什么看不清?

在陆地上,我们的眼睛看东西很准,因为光线传播很稳定。但在 underwater(水下):

  • 光线会“迷路”:水会吸收光线,还会让光线散射(像雾一样),导致照片看起来灰蒙蒙的,而且颜色会失真(比如红色最先消失)。
  • 没有参照物:很多海底是平坦的沙地或岩石,没有明显的纹理,机器人很难判断哪里是近、哪里是远。
  • 数据太少:想要训练机器人,需要大量的“水下照片 + 真实距离”的数据。但在水下用激光雷达等昂贵设备去测量真实距离非常困难且昂贵,所以现成的“教科书”(数据集)很少。

2. 核心创新一:给机器人换了一个“超级大脑” (ConvSS2D)

以前的机器人(比如之前的 StereoAdapter)在判断距离时,像是一个小心翼翼的侦探

  • 它一次只盯着眼前的一小块地方看,然后慢慢把信息传递给旁边。
  • 如果物体很远,或者是一片空白(没有纹理),它就得反复看很多次(迭代很多次)才能把信息传过去,效率低且容易出错。

StereoAdapter-2 做了什么?
它换了一个基于 SSM(状态空间模型) 的新大脑,叫 ConvSS2D

  • 比喻:以前的侦探是“走一步看一步”,现在的侦探变成了拥有“上帝视角”的无人机
  • 四向扫描:这个新大脑不仅能左右看(符合双眼视差的几何规律),还能上下看。它能像扫描雷达一样,一次性就把整个视野里的长距离信息都串联起来。
  • 动态适应:它很聪明,看到纹理丰富的地方就仔细看,看到模糊的地方就自动调整策略。这让它在一次“思考”中就能搞定以前需要反复多次才能完成的任务,速度快且看得远。

3. 核心创新二:制造了一个“水下虚拟训练场” (UW-StereoDepth-80K)

既然现实中的水下数据太少,作者决定自己造数据

  • 以前的做法:直接拿陆地上的照片,简单加个滤镜变成“水下风”。但这就像给陆地照片加个蓝色滤镜,里面的石头还是石头,水里的鱼还是鱼,不够真实。
  • StereoAdapter-2 的做法(两步走)
    1. 风格迁移(Atlantis):先用 AI 把陆地照片“变”成真正的水下样子。不仅仅是变蓝,而是模拟水里的浑浊、光线衰减、颗粒感,就像给照片穿上了一件逼真的“潜水服”。
    2. 生成新视角(NVS-Solver):有了左眼图(模拟水下),AI 再根据几何原理,自动“脑补”出右眼图。
  • 成果:他们造出了 8 万张 高质量的水下立体照片,涵盖了各种浑浊度、不同距离的相机配置。这就像给机器人提供了一个无限大的、包罗万象的虚拟水下训练场,让它见过了各种极端情况。

4. 实际效果:从“纸上谈兵”到“实战演练”

  • 零样本能力(Zero-shot):这是最厉害的地方。机器人完全没在真实水下数据上训练过,只用了上面造出来的“虚拟数据”训练,结果直接去测试真实的公开数据集(TartanAir-UW 和 SQUID),成绩竟然比所有老方法都好了很多(提升了 17% 和 7.2%)。
  • 真机验证:作者把这套系统装上了一艘真实的遥控潜水器(BlueROV2),在室内水池里测试。
    • 场景:水池里放了各种石头和玻璃容器,模拟复杂的水下环境。
    • 结果:机器人能准确画出周围物体的深度图,甚至能避开障碍物。这证明了它不仅能“做题”,还能“干活”。

总结

StereoAdapter-2 就像是一位天才潜水教练

  1. 它发明了一种全新的“扫描眼”(ConvSS2D),能瞬间看清远距离和模糊区域,不再笨拙地一步步推算。
  2. 它建立了一个超逼真的“虚拟水下世界”(8 万张合成数据),让机器人在下水前就见识过各种风浪。
  3. 最终,它让机器人在从未见过的真实水下环境中,也能像老手一样精准地判断距离,为未来的水下机器人探索、救援和考古提供了强有力的“眼睛”。

简单来说,就是用更聪明的算法 + 更丰富的虚拟数据,解决了水下机器人“看不清、算不准”的千古难题

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →