ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation

ScaleDepth 提出了一种将度量深度估计分解为场景尺度预测和相对深度估计的新方法,通过语义感知尺度预测(SASP)和自适应相对深度估计(ARDE)模块,在无需设定深度范围或微调模型的情况下,实现了室内外及未见场景的统一且最先进的度量深度估计性能。

Ruijie Zhu, Chuxin Wang, Ziyang Song, Li Liu, Tianzhu Zhang, Yongdong Zhang

发布于 2026-02-25
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 ScaleDepth 的新技术,它能让电脑像人眼一样,仅凭一张普通的照片就能准确判断出物体离自己有多远(也就是“深度”)。

为了让你更容易理解,我们可以把这项技术比作**“装修设计师”和“比例尺”**的故事。

1. 以前的难题:为什么电脑“看”不准距离?

想象一下,你给电脑看两张照片:

  • 照片 A:一个巨大的体育场(户外)。
  • 照片 B:一个小小的厨房(室内)。

以前的电脑深度估计方法就像是一个死记硬背的学徒

  • 如果它只在“厨房”的照片里训练过,它看到“体育场”时,就会懵圈:“这明明是个大厨房,怎么东西这么远?”结果它会把体育场里的东西都判断得很近。
  • 如果它只在“体育场”训练过,看厨房时,它又会觉得:“这怎么是个缩微模型?”结果把厨房里的东西都判断得很远。

核心问题:以前的方法很难同时适应“大场景”和“小场景”,因为它们没有学会如何判断**“这个场景到底有多大”**(也就是论文里说的“尺度”Scale)。

2. ScaleDepth 的绝招:拆解任务

ScaleDepth 的聪明之处在于,它把“判断距离”这个复杂的任务,拆成了两个简单的步骤,就像让两个专家分工合作:

第一步:SASP 模块 —— “场景侦探”(判断尺度)

  • 角色:这是一个**“场景侦探”**。
  • 任务:它不看具体的物体,而是先问自己:“我现在是在哪里?是巨大的户外,还是狭小的卧室?”
  • 怎么做:它利用了一种叫 CLIP 的 AI 技术(就像给电脑装上了“常识大脑”)。
    • 它会把照片和文字描述(比如“一张厨房的照片”)进行比对。
    • 如果照片看起来像厨房,它就心里有数:“哦,这是一个小空间,尺度大概是 5 米。”
    • 如果照片看起来像户外,它就判断:“这是一个大空间,尺度可能是 100 米。”
  • 比喻:这就好比你进到一个房间,先不用量家具,先看看天花板有多高、窗户有多大,就能大概猜出这个房间是“豪宅”还是“公寓”。

第二步:ARDE 模块 —— “相对位置画家”(判断相对深度)

  • 角色:这是一个**“相对位置画家”**。
  • 任务:它不管场景有多大,只负责画出一张**“相对距离图”**。
    • 它只关心:桌子比椅子远,椅子比墙近。
    • 它把整个世界压缩在 0 到 1 的范围内(0 是最近,1 是最近)。
  • 怎么做:它使用一种“掩码注意力”机制(Mask Attention)。
    • 比喻:想象你在看一张地图,画家只关注“和深度有关”的区域。比如,它会把注意力集中在“桌子”上,忽略背景里无关的装饰,从而精准地画出物体之间的前后关系。

第三步:合体 —— 最终答案

  • 最后,ScaleDepth 把**“场景侦探”给出的尺度(比如 50 米)** 乘以 “相对位置画家”画出的图(0 到 1 的比例)
  • 结果:瞬间得到了精确的真实距离(Metric Depth)。
    • 如果是厨房,50 米 × 0.1 = 5 米。
    • 如果是体育场,50 米 × 0.1 = 50 米。
    • 同一个比例,不同的尺度,完美适配!

3. 这项技术厉害在哪里?

  1. 不用“量身定做”:以前的方法,如果是室内场景,就要专门训练一个模型;如果是户外,又要训练一个。ScaleDepth 就像是一个万能瑞士军刀,同一个模型既能处理室内也能处理户外,不需要切换或重新调整。
  2. 见多识广(零样本能力):即使它从未见过某种特定的房间(比如从未见过的“太空舱”),只要它通过“场景侦探”识别出这是一个封闭空间,它就能利用常识推断出大概的尺度,从而给出准确的深度图。
  3. 更精准:在实验中,无论是复杂的室内(如堆满杂物的客厅)还是广阔的户外(如高速公路),它的表现都超过了目前最顶尖的竞争对手。

4. 总结

简单来说,ScaleDepth 就是给电脑装上了**“常识”“比例感”**。

  • 以前的电脑:看到照片就瞎猜距离,容易把大场景看小,把小场景看大。
  • 现在的 ScaleDepth:先**“看环境定大小”(SASP),再“画物体排前后”(ARDE),最后“算出真实距离”**。

这项技术对于自动驾驶(判断车离障碍物多远)、机器人(判断能不能抓得住杯子)以及增强现实(AR)(让虚拟物体完美融入真实世界)都有着巨大的应用价值。它让机器真正开始像人一样“理解”三维空间了。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →