Any to Full: Prompting Depth Anything for Depth Completion in One Stage

이 논문은 희소하고 불규칙한 깊이 정보를 단일 단계에서 보정하기 위해 사전 학습된 모노큘러 깊이 추정 모델을 스케일 프롬프트로 적응시키는 범용 프레임워크인 'Any2Full'을 제안하며, 기존 방법들보다 뛰어난 정확도와 효율성을 입증합니다.

Zhiyuan Zhou, Ruofeng Liu, Taichi Liu, Weijian Zuo, Shanshan Wang, Zhiqing Hong, Desheng Zhang

게시일 2026-03-09
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: 왜 깊이를 재는 게 힘들까? 🕵️‍♂️

상상해 보세요. 안경을 쓴 채로 흐릿하게 보이는 사진을 찍었는데, 그 사진에 검은색 점들이 무작위로 찍혀서 일부는 보이고 일부는 안 보이는 상태라고 가정해 봅시다.

  • 기존 센서의 한계: LiDAR(레이저 거리계) 나 ToF(시간 비행) 센서 같은 상용 센서들은 빛이 반사되지 않는 검은색 물체나 먼 곳에서는 정보가 끊기거나 (Sparse), 구멍이 생깁니다 (Hole).
  • 기존 AI 의 문제:
    • 과도한 학습 (Domain Specificity): "이 사진은 실내야, 저 사진은 실외야"라고 구분해서 배우다 보니, 훈련하지 않은 환경 (예: 갑자기 어두워지거나 바닥 재질이 달라짐) 에서는 엉뚱한 답을 내놓습니다.
    • 두 단계의 비효율 (Two-stage): 기존 방법들은 먼저 "대충 추정"을 하고, 그다음 "세부 수정"을 하는 두 단계로 나눕니다. 이는 마치 먼저 대충 그림을 그리고, 그 위에 다시 색칠을 하는 것처럼 시간이 오래 걸리고, 중간에 생긴 실수가 최종 결과에 영향을 줍니다.

2. 해결책: "Any2Full"의 마법 🪄

이 논문에서 제안한 Any2Full은 이 문제를 **한 단계 (One-stage)**로 해결합니다. 핵심 아이디어는 **"이미 잘 알고 있는 전문가 (MDE 모델) 에게 힌트만 주면, 그 전문가가 스스로 완벽하게 채워준다"**는 것입니다.

🎨 비유: "미완성 그림을 채우는 화가"

  1. 전문가 (MDE 모델): 이미 수만 장의 사진을 보며 "물체와 배경의 관계", "그림자", "원근감"을 완벽하게 이해하고 있는 천재 화가가 있습니다. 이 화가는 사진만 보면 대략적인 깊이 (어디가 가깝고 어디가 먼지) 를 눈으로만도 알 수 있습니다. 하지만 정확한 '미터 (m)' 단위의 거리는 모릅니다. (예: "저기 나무가 있네"는 알지만, "정확히 5.2 미터 떨어져 있네"는 모릅니다.)
  2. 힌트 (Sparse Depth): 우리가 가진 건 점점 끊긴 깊이 정보뿐입니다. 마치 화가에게 "여기 3 미터, 저기 10 미터"라고 몇 군데만 점 (점) 을 찍어준 상태입니다.
  3. Any2Full 의 역할 (Scale-Aware Prompt):
    • 기존 방식은 이 점들을 보고 화가에게 "이 점들을 연결해서 그림을 그려봐"라고 시키면, 화가가 혼란을 겪거나 잘못된 선을 그립니다.
    • Any2Full은 화가에게 **"이 점들의 비율을 봐! (Scale Prompt)"**라고 스케일 (크기) 에 대한 힌트만 줍니다.
    • 화가는 자신의 **천재적인 직감 (기하학적 사전 지식)**을 유지하면서, 우리가 준 **힌트 (점들의 상대적 크기)**만 참고해서 전체 그림을 한 번에 완벽하게 채웁니다.

3. 핵심 기술: "스케일-aware 프롬프트 인코더" 🧠

이 기술은 두 가지 단계로 작동합니다.

  1. 국부적 풍부화 (Local Enrichment):
    • 끊긴 점들 사이사이를 화가의 **눈 (MDE 모델의 특징)**과 연결합니다.
    • "여기 점과 저기 점의 거리는 이렇고, 화가의 눈으로 볼 때 이 부분은 벽이야"라고 국부적인 맥락을 잡아줍니다.
  2. 전역적 전파 (Global Propagation):
    • 이 정보가 그림 전체로 퍼지도록 돕습니다.
    • 중요한 점: 이 전파는 점들의 모양 (패턴) 에 의존하지 않고, 오직 **화가가 본 '기하학적 구조' (벽, 바닥, 물체의 형태)**를 따라 퍼집니다.
    • 비유: 비가 내릴 때 물방울이 땅에 떨어지는 모양 (무작위) 이 아니라, **물이 흐르는 길 (강의 흐름)**을 따라 퍼지도록 하는 것과 같습니다. 그래서 어떤 모양으로 점이 끊겨 있든 (구멍이 났든, 랜덤하게 흩어졌든) 항상 똑똑한 화가가 올바른 길을 찾아냅니다.

4. 왜 이 기술이 대단한가요? 🚀

  • 한 번에 끝내기 (One-Stage): "대충 그렸다가 수정"하는 과정을 없애서 속도가 1.4 배 빨라졌습니다.
  • 어떤 상황에서도 통함 (Domain Generalization): 훈련한 데이터와 전혀 다른 환경 (실내, 실외, 어두운 곳, 밝은 곳) 에서도 실수 없이 작동합니다.
  • 패턴 무관 (Pattern-Agnostic): 깊이가 끊긴 모양이 랜덤이든, 구멍이 났든, 특정 거리만 측정되었든 상관없이 일관된 결과를 냅니다.
  • 실제 적용: 이 기술은 실제로 창고 로봇에 적용되었습니다. 검은색 택배 상자는 빛을 흡수해서 센서가 보지 못해 로봇이 잡지 못했는데, Any2Full 이 이 검은 상자의 3D 모양을 완벽하게 복원해 잡기 성공률을 28% 에서 91.6% 로 끌어올렸습니다! 📦🤖

5. 요약: 한 줄로 정리하면?

"이미 세상을 잘 아는 천재 AI(화가) 에게, 끊긴 깊이 정보 (점) 를 '크기 비율'이라는 힌트로만 주면, 그 AI 가 한 번에 완벽한 3D 지도를 그려낸다는 것!"

이 기술은 로봇이 더 똑똑하고 빠르게 세상을 이해하도록 도와주며, 앞으로 우리가 사용하는 모든 자동화 시스템의 눈이 될 것입니다. 👁️✨