LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight

이 논문은 2D 검출에서 3D 위치 추론으로 이어지는 '시각적 사고 연쇄 (Chain-of-Sight)'를 도입하여 3D 검출을 차기 토큰 예측 문제로 변환함으로써 오픈 보카불러리 3D 감지의 새로운 기준을 제시한 LocateAnything3D 모델을 제안합니다.

Yunze Man, Shihao Wang, Guowen Zhang, Johan Bjorck, Zhiqi Li, Liang-Yan Gui, Jim Fan, Jan Kautz, Yu-Xiong Wang, Zhiding Yu

게시일 2026-02-24
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'LocateAnything3D(무엇이든 3D 로 찾아내기)'**라는 새로운 인공지능 모델을 소개합니다. 쉽게 말해, **"인공지능이 눈앞의 사진을 보고, 사물이 2 차원 평면에서 어디에 있는지 먼저 확인한 뒤, 그 사물이 3 차원 공간에서 얼마나 멀리 있고, 얼마나 크며, 어떤 방향으로 놓여 있는지 자연스럽게 추론하게 만든 기술"**입니다.

이 복잡한 내용을 일상적인 비유로 풀어보겠습니다.

1. 문제 상황: AI 는 '눈'은 좋지만 '깊이감'이 부족해요

지금까지의 AI(시각 - 언어 모델) 는 사진 속 사물을 묘사하거나 이름을 붙이는 데는 천재였습니다. "저기 빨간 차가 있어"라고 말하죠. 하지만 실제 세계에 개입하려면 "그 차가 내게서 정확히 몇 미터 떨어져 있고, 얼마나 큰지"를 알아야 합니다.

기존의 3D 감지 기술은 마치 매우 전문적인 공학자처럼, 특정 목적 (예: 자율주행) 에 맞춰 설계된 별도의 도구와 복잡한 수식을 사용했습니다. 하지만 이 기술들은 범용성이 떨어지고, 새로운 물체가 나오면 당황하곤 했습니다.

2. 해결책: '시각적 사고의 사슬 (Chain-of-Sight)'

이 연구팀은 AI 가 인간이 사물을 인식하는 방식을 따라가게 했습니다. 바로 **'Chain-of-Sight(시각적 사고의 사슬)'**라는 방법입니다.

  • 비유: 요리사에게 레시피를 가르치는 것
    • 기존 방식: 요리사 (AI) 에게 "이 요리를 만들어"라고만 하고, 모든 재료를 한 번에 섞으라고 했습니다. (결과가 자주 실패하거나 엉뚱한 요리가 나옴)
    • LocateAnything3D 방식: 요리사에게 **"먼저 재료를 썰어라 (2D 위치 확인), 그다음 양념을 넣고, 마지막으로 불 조절을 해라 (3D 깊이 및 크기 추정)"**라는 순서대로 단계별로 지시합니다.

AI 는 사진을 보고 먼저 **"2D 박스 (사각형)"**를 그립니다. 이는 "저기 물체가 있구나"라고 눈으로 확인하는 단계입니다. 그다음, 그 2D 박스를 발판 삼아 **"3D 박스 (입체 상자)"**를 그립니다. "아, 저 물체는 저기 있고, 저기서 저렇게 멀리 떨어져 있고, 저렇게 기울어져 있구나"라고 자연스럽게 결론을 내리는 것입니다.

3. 핵심 전략: "가까운 것부터, 쉬운 것부터"

AI 가 여러 물체를 한꺼번에 볼 때 혼란을 겪지 않도록 두 가지 규칙을 적용했습니다.

  1. 가까운 것부터 먼 것까지 (Near-to-Far):

    • 비유: 어두운 방에 들어갔을 때, 우리는 먼저 발밑에 있는 물건을 보고, 그다음 조금 더 멀리 있는 물건을 봅니다.
    • AI 도 마찬가지입니다. 카메라에 가장 가까운 물체부터 순서대로 인식하게 했습니다. 가까운 물체는 정보가 명확해서 AI 가 "이건 차야"라고 확신하면, 그 정보를 바탕으로 뒤에 있는 물체들의 크기와 거리를 더 정확하게 추정할 수 있습니다.
  2. 위치 → 크기 → 방향 (Center → Size → Rotation):

    • 비유: 새로운 사람을 만났을 때, 우리는 먼저 "그 사람이 어디에 서 있나?" (위치) 를 보고, "키가 얼마나 크나?" (크기) 를 보고, "얼굴이 어느 쪽을 보고 있나?" (방향) 를 봅니다.
    • AI 도 이 순서대로 정보를 입력받습니다. 위치를 먼저 잡으면, 그 다음 크기와 방향을 추정하기가 훨씬 쉬워집니다.

4. 놀라운 성과: "공부 없이도 새로운 것을 알아맞힌다"

이 모델은 Omni3D라는 거대한 시험에서 기존 최고 기록을 13.98 포인트나 앞질렀습니다. (기존 기술이 2D 박스를 정답으로 미리 알려줬을 때보다 더 잘했습니다!)

가장 중요한 점은 제로샷 (Zero-shot) 능력입니다.

  • 비유: AI 가 훈련할 때 '의자'와 '책상'만 배웠다고 칩시다. 그런데 시험장에 '소파'가 나왔을 때, 기존 AI 는 당황하지만 LocateAnything3D 는 "아, 이건 의자보다 크고 책상보다 부드러운 모양이네"라고 추론해냅니다.
  • 이 모델은 훈련하지 않은 새로운 물체들도 텍스트 명령이나 클릭 한 번으로 3D 공간에서 정확히 찾아냅니다.

5. 결론: 로봇에게 '공간 감각'을 심어주다

이 기술은 단순히 사진을 분석하는 것을 넘어, 로봇이나 자율주행차가 실제 세계를 이해하고 행동할 수 있는 기반을 마련했습니다.

  • 기존: "저기 차가 있어." (2D 인식)
  • LocateAnything3D: "저기 차가 있고, 내 오른쪽 5 미터 앞에 있으며, 4.5 미터 길이로 정면 15 도 기울어져 있어. 그래서 내가 피해야 해." (3D 인식 및 행동 준비)

결국 이 연구는 AI 가 단순한 '사진 보는 기계'에서, 3 차원 세계를 이해하고 그 안에서 행동할 수 있는 '지능적인 파트너'로 성장하는 데 필요한 핵심 열쇠를 찾았다고 볼 수 있습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →