Any to Full: Prompting Depth Anything for Depth Completion in One Stage

本文提出了 Any2Full,一种单阶段、领域通用且模式无关的深度补全框架,它通过设计尺度感知提示编码器,将稀疏深度信息转化为提示信号以微调预训练的单目深度估计模型,从而在无需两阶段对齐的情况下实现了更优的鲁棒性与效率。

Zhiyuan Zhou, Ruofeng Liu, Taichi Liu, Weijian Zuo, Shanshan Wang, Zhiqing Hong, Desheng Zhang

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Any2Full 的新方法,它的核心任务是解决机器人“看”世界时的一个常见难题:如何把模糊、残缺的“深度图”变成清晰、完整的“全景图”

为了让你轻松理解,我们可以把深度图想象成一张只有几个点有墨水的素描画,而我们的目标是把整张画补全,让机器人能看清物体的远近和形状

以下是用通俗语言和比喻对这篇论文的解读:

1. 核心痛点:为什么现有的方法不够好?

想象一下,你手里拿着一张只有零星几个点的“点阵图”(这是传感器测到的稀疏深度数据),你想把它变成一张完整的 3D 地图。

  • 传统方法(像“笨拙的修补匠”):
    以前的方法通常是“两步走”。第一步,先凭经验猜一个大概的轮廓(粗图);第二步,再拿着这个粗图去修补细节。

    • 问题: 就像修补匠先随便画个草图,再试图改好,结果往往改得面目全非,或者因为第一步猜错了,后面怎么改都有瑕疵。而且,如果场景变了(比如从白天变黑夜,或者从室内变室外),这个修补匠就完全不会干活了。
  • 新方法(像“天才画家”):
    最近出现了一些“单目深度估计”(MDE)模型,它们就像受过严格训练的天才画家。只要给它们看一张普通的照片,它们就能凭直觉画出非常逼真的 3D 结构(几何形状),而且不管是在沙漠还是雪地,它们都能画得很好(通用性强)。

    • 问题: 这些天才画家虽然画得结构好,但它们不知道具体的尺寸。它们画出的房子可能只有火柴盒那么大,也可能像摩天大楼一样大(缺乏“尺度”信息)。

2. Any2Full 的解决方案:给天才画家一个“尺子”

Any2Full 的核心思想非常巧妙:它不重新教画家怎么画画,而是直接给这位天才画家递一把“尺子”

  • 比喻:尺子与画家的合作
    • 画家(预训练模型): 负责画出完美的结构、纹理和物体之间的相对位置(谁在谁前面,谁高谁低)。
    • 尺子(稀疏深度数据): 虽然数据很少(只有几个点),但这几个点告诉我们具体的距离。
    • Any2Full 的作用: 它设计了一个**“智能提示器”(Scale-Aware Prompt Encoder)**。这个提示器能从那几个稀疏的点中,提炼出“尺度线索”(比如:这个点离我 5 米,那个点离我 10 米),然后把这些线索像“提示词”一样,悄悄告诉画家。
    • 结果: 画家瞬间明白了:“哦,原来这个场景是真实的尺寸!”于是,它直接画出了一张既结构完美、又尺寸准确的完整深度图。

3. 它是怎么做到的?(技术亮点)

论文中提到了两个关键模块,我们可以这样理解:

  • 局部丰富模块(Local Enrichment):
    就像在画画的局部,先把手里仅有的几个点(稀疏数据)和画家的笔触(密集特征)融合在一起。不管这几个点是密密麻麻还是稀稀拉拉,它都能把它们“翻译”成画家能听懂的语言。
  • 全局传播模块(Global Propagation):
    这是最精彩的部分。因为稀疏数据分布很不规则(有的地方有,有的地方没),直接融合会乱套。这个模块利用画家对“几何结构”的理解(比如墙壁是直的,地面是平的),把那几个点的尺度信息像涟漪一样扩散到整张图
    • 比喻: 就像在平静的湖面上扔了一块石头(稀疏数据),利用水波(几何结构)把震动传递到湖的每一个角落,让整张图都知道该按什么比例缩放。

4. 为什么它很厉害?(优势)

  1. 一步到位(One-Stage):
    以前的方法要“先猜后改”,像走两步;Any2Full 是“直接画完”,像走一步。这让它速度更快(比之前的方法快 1.4 倍),而且没有中间步骤的误差积累。
  2. 万能通用(Domain-General):
    不管是在仓库、街道、室内还是室外,不管光线怎么变,它都能用。因为它借用了“天才画家”原本就具备的通用几何直觉。
  3. 无视残缺(Pattern-Agnostic):
    不管传感器测到的数据是缺了一块(像被挖了个洞),还是只有几条线,它都能补全。它不依赖特定的数据模式,适应性极强。

5. 实际效果:真的有用吗?

论文里展示了一个非常酷的实际应用:机器人抓取黑色包裹

  • 场景: 在物流仓库里,有很多黑色的包裹。普通的深度相机(ToF)遇到黑色物体,因为光线被吸收,测不到距离,数据全是空的(就像画布上全是黑洞)。
  • 以前: 机器人看着黑洞,根本抓不住,或者抓歪了把包裹弄坏。
  • 现在: 用了 Any2Full,机器人能根据旁边的 RGB 照片,结合那一点点残留的深度信息,脑补出黑色包裹完整的 3D 形状。
  • 结果: 抓取成功率从 28% 飙升到 91.6%,而且不会弄坏包裹。

总结

Any2Full 就像是一个聪明的“翻译官”。它把残缺的传感器数据(稀疏深度)翻译成“尺子”,交给一位全能的天才画家(预训练模型)。画家拿着尺子,瞬间就能画出一张既准确又完整的 3D 地图。

这种方法不仅,而且,让机器人能在各种复杂、甚至数据残缺的环境下,像人一样清晰地“看”懂世界。