Any to Full: Prompting Depth Anything for Depth Completion in One Stage

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Any2Full 的新方法，它的核心任务是解决机器人“看”世界时的一个常见难题：如何把模糊、残缺的“深度图”变成清晰、完整的“全景图”。

为了让你轻松理解，我们可以把深度图想象成一张只有几个点有墨水的素描画，而我们的目标是把整张画补全，让机器人能看清物体的远近和形状。

以下是用通俗语言和比喻对这篇论文的解读：

1. 核心痛点：为什么现有的方法不够好？

想象一下，你手里拿着一张只有零星几个点的“点阵图”（这是传感器测到的稀疏深度数据），你想把它变成一张完整的 3D 地图。

传统方法（像“笨拙的修补匠”）：
以前的方法通常是“两步走”。第一步，先凭经验猜一个大概的轮廓（粗图）；第二步，再拿着这个粗图去修补细节。
- 问题： 就像修补匠先随便画个草图，再试图改好，结果往往改得面目全非，或者因为第一步猜错了，后面怎么改都有瑕疵。而且，如果场景变了（比如从白天变黑夜，或者从室内变室外），这个修补匠就完全不会干活了。
新方法（像“天才画家”）：
最近出现了一些“单目深度估计”（MDE）模型，它们就像受过严格训练的天才画家。只要给它们看一张普通的照片，它们就能凭直觉画出非常逼真的 3D 结构（几何形状），而且不管是在沙漠还是雪地，它们都能画得很好（通用性强）。
- 问题： 这些天才画家虽然画得结构好，但它们不知道具体的尺寸。它们画出的房子可能只有火柴盒那么大，也可能像摩天大楼一样大（缺乏“尺度”信息）。

2. Any2Full 的解决方案：给天才画家一个“尺子”

Any2Full 的核心思想非常巧妙：它不重新教画家怎么画画，而是直接给这位天才画家递一把“尺子”。

比喻：尺子与画家的合作
- 画家（预训练模型）： 负责画出完美的结构、纹理和物体之间的相对位置（谁在谁前面，谁高谁低）。
- 尺子（稀疏深度数据）： 虽然数据很少（只有几个点），但这几个点告诉我们具体的距离。
- Any2Full 的作用： 它设计了一个**“智能提示器”（Scale-Aware Prompt Encoder）**。这个提示器能从那几个稀疏的点中，提炼出“尺度线索”（比如：这个点离我 5 米，那个点离我 10 米），然后把这些线索像“提示词”一样，悄悄告诉画家。
- 结果： 画家瞬间明白了：“哦，原来这个场景是真实的尺寸！”于是，它直接画出了一张既结构完美、又尺寸准确的完整深度图。

3. 它是怎么做到的？（技术亮点）

论文中提到了两个关键模块，我们可以这样理解：

局部丰富模块（Local Enrichment）：
就像在画画的局部，先把手里仅有的几个点（稀疏数据）和画家的笔触（密集特征）融合在一起。不管这几个点是密密麻麻还是稀稀拉拉，它都能把它们“翻译”成画家能听懂的语言。
全局传播模块（Global Propagation）：
这是最精彩的部分。因为稀疏数据分布很不规则（有的地方有，有的地方没），直接融合会乱套。这个模块利用画家对“几何结构”的理解（比如墙壁是直的，地面是平的），把那几个点的尺度信息像涟漪一样扩散到整张图。
- 比喻： 就像在平静的湖面上扔了一块石头（稀疏数据），利用水波（几何结构）把震动传递到湖的每一个角落，让整张图都知道该按什么比例缩放。

4. 为什么它很厉害？（优势）

一步到位（One-Stage）：
以前的方法要“先猜后改”，像走两步；Any2Full 是“直接画完”，像走一步。这让它速度更快（比之前的方法快 1.4 倍），而且没有中间步骤的误差积累。
万能通用（Domain-General）：
不管是在仓库、街道、室内还是室外，不管光线怎么变，它都能用。因为它借用了“天才画家”原本就具备的通用几何直觉。
无视残缺（Pattern-Agnostic）：
不管传感器测到的数据是缺了一块（像被挖了个洞），还是只有几条线，它都能补全。它不依赖特定的数据模式，适应性极强。

5. 实际效果：真的有用吗？

论文里展示了一个非常酷的实际应用：机器人抓取黑色包裹。

场景： 在物流仓库里，有很多黑色的包裹。普通的深度相机（ToF）遇到黑色物体，因为光线被吸收，测不到距离，数据全是空的（就像画布上全是黑洞）。
以前： 机器人看着黑洞，根本抓不住，或者抓歪了把包裹弄坏。
现在： 用了 Any2Full，机器人能根据旁边的 RGB 照片，结合那一点点残留的深度信息，脑补出黑色包裹完整的 3D 形状。
结果： 抓取成功率从 28% 飙升到 91.6%，而且不会弄坏包裹。

总结

Any2Full 就像是一个聪明的“翻译官”。它把残缺的传感器数据（稀疏深度）翻译成“尺子”，交给一位全能的天才画家（预训练模型）。画家拿着尺子，瞬间就能画出一张既准确又完整的 3D 地图。

这种方法不仅快，而且稳，让机器人能在各种复杂、甚至数据残缺的环境下，像人一样清晰地“看”懂世界。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题定义 (Problem)

核心问题：
深度补全（Depth Completion）旨在从稀疏或不完整的深度测量（如 LiDAR、ToF 传感器数据）和对应的 RGB 图像中恢复出稠密、精确的度量深度图。然而，现有的方法存在以下主要局限性：

领域特定性（Domain Specificity）： 传统的 RGB-D 融合方法（如 CompFormer）通常在特定数据集上联合训练，导致模型对光照、纹理或场景变化敏感，泛化能力差。
深度模式敏感性（Depth Pattern Sensitivity）： 现有方法难以适应不同的深度稀疏模式（如随机稀疏、大孔洞缺失、传感器量程限制等）。当输入的深度分布模式与训练数据不一致时，性能显著下降。
两阶段架构的缺陷： 近期利用单目深度估计（MDE）模型引入几何先验的方法（如 PriorDA）通常采用“两阶段”策略：
- 第一阶段：将 MDE 的相对深度与稀疏度量深度进行显式对齐，生成粗略深度图。
- 第二阶段：利用 RGB 引导进行细化。
- 弊端： 这种显式对齐会破坏 MDE 原本鲁棒的几何先验，引入结构化伪影（artifacts），且增加了计算开销和推理延迟。

目标：
构建一个单阶段（One-Stage）、**领域通用（Domain-General）且深度模式无关（Pattern-Agnostic）**的深度补全框架，能够无缝集成预训练 MDE 模型的几何先验，同时适应各种稀疏深度输入。

2. 方法论 (Methodology)

作者提出了 Any2Full，一个将深度补全重新定义为预训练 MDE 模型的“尺度提示（Scale-Prompting）”自适应的单阶段框架。

核心思想

不直接学习从稀疏到稠密的映射，而是利用预训练 MDE 模型（如 Depth Anything）强大的几何先验，通过注入从稀疏深度中提取的尺度线索（Scale Cues），引导 MDE 输出**尺度一致（Scale-Consistent）**的相对深度，最后通过全局仿射变换转换为度量深度。

关键组件：尺度感知提示编码器 (Scale-Aware Prompt Encoder, SAPE)

为了解决稀疏深度输入中存在的稀疏度变化和不规则空间分布（如随机缺失、大孔洞）问题，SAPE 设计了两个层级模块，在 MDE 几何先验的引导下重构稀疏深度的结构上下文：

局部增强模块 (Local Enrichment Module)：
- 功能： 将稀疏深度中的尺度线索与 MDE 骨干网络提取的稠密几何特征进行耦合。
- 机制： 使用广义特征级线性调制（FiLM）机制。稀疏深度特征作为条件，生成缩放（ $\gamma$ ）和偏移（ $\beta$ ）参数，调制 MDE 的潜在特征。
- 作用： 使特征对不同的稀疏度水平具有鲁棒性，将尺度线索“锚定”在 MDE 的潜在空间中。
全局传播模块 (Global Propagation Module)：
- 功能： 解决不规则空间分布导致的特征碎片化问题，建立全局一致的尺度感知特征。
- 机制： 利用 MDE 几何特征作为注意力机制的 Query 和 Key，仅将局部尺度特征作为 Value 进行扩散。
- 创新点： 这种设计确保了尺度线索是沿着 RGB 定义的几何结构进行传播的，而不是受稀疏采样模式的偏差影响，从而实现了**模式无关（Pattern-Agnostic）**的提示。
尺度提示融合 (Scale Prompt Fusion)：
- 将生成的统一尺度提示注入到 MDE 解码器的不同层级，通过 FiLM 机制微调相对深度预测，使其在保持几何细节的同时具备全局尺度一致性。

推理流程

输入：RGB 图像 + 稀疏深度图。
预处理：对稀疏深度进行归一化（去除全局尺度和偏移，保留点间比例）。
编码：SAPE 将归一化深度转换为尺度提示。
生成：MDE 骨干网络接收 RGB 和尺度提示，输出尺度一致的相对深度。
后处理：通过非参数最小二乘拟合（Least-Squares Fit），将相对深度对齐回原始稀疏度量深度，得到最终的稠密度量深度。

3. 主要贡献 (Key Contributions)

Any2Full 框架： 提出了首个单阶段、领域通用且深度模式无关的深度补全框架。通过将任务重构为 MDE 的尺度提示自适应，释放了预训练 MDE 模型的潜力。
尺度感知提示编码器 (SAPE)： 设计了一种分层编码器，能够在 MDE 几何引导下，将稀疏、不规则的尺度线索转化为全局一致的特征，有效解决了不同稀疏模式和分布带来的过拟合问题。
性能与效率的双重突破：
- 精度： 在多个零样本（Zero-shot）基准测试中，平均 AbsREL 比当前最先进方法 OMNI-DC 提升了 32.2%。
- 速度： 相比使用相同 MDE 骨干的 PriorDA，推理速度提升了 1.4 倍（单阶段避免了中间粗略深度预测和细化网络）。
- 通用性： 在未见过的深度模式（如 Range 限制、大孔洞）和视觉域（室内/室外）上表现出卓越的鲁棒性。

4. 实验结果 (Results)

基准测试表现

数据集： 在 NYU-Depth V2, iBims-1, KITTI DC, DIODE, ETH3D, VOID 以及自建的真实世界物流数据集（Logistic-Black）上进行了评估。
零样本泛化： 在跨域测试中，Any2Full 的平均排名（Average Rank）为 2.3，显著优于 CompFormer、PriorDA、OMNI-DC 等竞争对手。
模式鲁棒性： 在“孔洞（Hole）”、“量程限制（Range）”和“随机稀疏（Sparse）”等多种模式下，Any2Full 均保持了高精度，而传统方法在未见模式（如 Range）上性能急剧下降。

效率对比

基于 Depth Anything Large (DA-L) 骨干，Any2Full 仅增加了约 20% 的参数（60.6M vs 335.3M），但将 AbsREL 从 0.038 降低至 0.007。
推理延迟仅为 0.49 秒（PriorDA 为 0.68 秒），且最小版本（DA-S）仅需 0.09 秒，比 PriorDA 快 7 倍。

真实世界应用

场景： 机器人仓库抓取黑色包裹（黑色物体吸收红外光，导致 ToF 传感器深度严重缺失）。
效果： 将抓取成功率从 28% 提升至 91.6%，且显著减少了包裹变形。证明了该方法在实际工业场景中的实用价值。

5. 意义与影响 (Significance)

范式转变： Any2Full 摒弃了传统的“两阶段”深度补全范式（先粗略后细化），证明了通过**提示学习（Prompting）**直接利用预训练 MDE 的几何先验是更高效、更鲁棒的解决方案。
解决核心痛点： 有效解决了深度补全中领域偏移和深度模式敏感两大长期挑战，使得模型能够适应各种传感器（LiDAR, ToF, 结构光）和不同环境（室内/室外，不同光照/纹理）。
工业落地价值： 在机器人抓取等对实时性和精度要求极高的任务中，Any2Full 展示了其作为通用感知模块的巨大潜力，特别是在处理传感器失效（如黑色物体导致的深度丢失）场景下。
开源贡献： 代码和模型权重已开源，推动了社区在通用深度补全方向的研究。

总结： Any2Full 通过巧妙的“尺度提示”机制，成功将强大的单目深度估计先验与稀疏度量信息融合，在保持 MDE 几何鲁棒性的同时，实现了单阶段、高精度、高效率的深度补全，为机器人感知和自动驾驶等领域提供了一种新的通用解决方案。