JOPP-3D: Joint Open Vocabulary Semantic Segmentation on Point Clouds and Panoramas

이 논문은 3D 포인트 클라우드와 파노라마 이미지를 결합하여 언어 기반의 오픈 보카불러리 시맨틱 분할을 가능하게 하는 JOPP-3D 프레임워크를 제안하고, 기존 최첨단 모델 대비 성능을 크게 향상시켰음을 Stanford-2D-3D-s 및 ToF-360 데이터셋 실험을 통해 입증합니다.

Sandeep Inuganti, Hideaki Kanayama, Kanta Shimizu, Mahdi Chamseddine, Soichiro Yokota, Didier Stricker, Jason Rambach

게시일 2026-03-09
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🏗️ 1. 문제: "눈이 먼" 로봇과 "단어장"의 한계

지금까지 로봇이나 AI 가 세상을 이해하려면 미리 정해진 **단어장 (레이블)**을 외워야 했습니다. 예를 들어, "의자"라고만 알려주면 의자를 찾고, "소파"라고 알려주면 소파를 찾습니다. 하지만 "쓰레기통"이나 "벽에 걸린 시계" 같은 새로운 물체가 나오면 AI 는 당황합니다. 또한, 3D 공간의 깊이감 (점) 과 2D 사진의 색감을 동시에 이해하는 것도 매우 어려웠습니다.

마치 외국어를 배우는 학생이 사전에 없는 단어를 만나면 이해하지 못하는 것과 비슷합니다.

💡 2. 해결책: JOPP-3D 의 "마법 같은 눈"

JOPP-3D 는 사전에 없는 단어도 이해할 수 있는 오픈 보카불러리 (Open Vocabulary) 기술을 사용합니다. 사용자가 "저기 빨간 쓰레기통 찾아줘"라고 말하면, AI 는 "쓰레기통"이라는 개념을 알고 있는 거대한 언어 모델 (CLIP 등) 을 이용해 그 물체를 찾아냅니다.

이 기술의 핵심은 세상을 두 가지 눈으로 동시에 보는 것입니다.

  1. 3D 점 (Point Cloud): 사물의 입체적인 모양과 깊이.
  2. 360 도 파노라마: 사물의 색상과 질감.

🧩 3. 작동 원리: 3 단계로 이루어진 마법

1 단계: "구슬을 평평하게 펴기" (Tangential Decomposition)

360 도 파노라마 사진은 구형이라서 왜곡이 심합니다. 마치 지구본을 평평한 지도로 펼칠 때 생기는 왜곡처럼요.

  • 비유: JOPP-3D 는 이 구형 사진을 **20 개의 정면 (정이십면체)**으로 나눕니다. 마치 주사위를 여러 개 붙여서 구를 만들었다가, 다시 그 주사위 면들을 떼어내어 평평한 사진 20 장으로 만드는 것과 같습니다.
  • 이렇게 하면 AI 가 가장 잘 보는 '정면 사진'을 얻게 되어, 왜곡 없이 사물을 정확히 인식할 수 있습니다.

2 단계: "사물을 조각내어 이름 붙이기" (3D Instance & Semantic Alignment)

이제 AI 는 3D 공간에 있는 사물들을 찾아냅니다.

  • 비유: 3D 점 구름 속에서 의자, 책상, 벽 같은 사물 덩어리를 찾아내어 **조각조각 (마스크)**으로 잘라냅니다.
  • 그리고 잘라낸 조각들을 CLIP 이라는 거대한 언어 모델에 보여줍니다. "이건 뭐야?"라고 물어보면, AI 는 "이건 의자야"라고 답합니다. 이때 중요한 건, **사실상 학습 없이 (Zero-shot)**도 자연어로 물어보면 알아맞힌다는 점입니다.

3 단계: "3D 와 사진을 다시 연결하기" (Depth Correspondence)

3D 공간에서 찾은 정보를 다시 360 도 파노라마 사진 위에 입혀줍니다.

  • 비유: 3D 공간에서 찾은 '의자'의 위치 정보를 가지고, 360 도 카메라가 찍은 사진 속의 그 위치를 찾아 색칠합니다.
  • 이때 **문 (Doorway)**이나 복도처럼 시야가 끊기는 부분에서도 정보가 끊기지 않도록, 깊이 (Depth) 정보를 이용해 옆방의 정보까지 연결해줍니다. 마치 벽을 뚫고 옆방의 사물 정보까지 전달하는 것과 같습니다.

🏆 4. 성과: 왜 이것이 특별한가요?

기존의 기술들은 2D 사진만 보거나, 3D 점만 보거나, 미리 정해진 단어만 알 수 있었습니다. 하지만 JOPP-3D 는:

  • 학습 없이도 새로운 사물을 찾아냅니다. (예: "저기 있는 '낡은 자전거' 찾아줘"라고 하면 찾아냅니다.)
  • 3D 공간과 2D 사진을 동시에 이해하여, 로봇이 길을 잃지 않고 사물을 정확히 파악하게 합니다.
  • 실험 결과, 기존 최고의 기술들보다 훨씬 더 정확하고 일관된 결과를 보여줍니다.

🚀 결론: 로봇의 '눈'과 '뇌'를 하나로 묶다

JOPP-3D 는 로봇이 세상을 볼 때 3D 입체감사진의 생생함을 동시에 느끼게 하고, 우리가 말로 지시하는 대로 어떤 사물이든 찾아낼 수 있게 해주는 혁신적인 기술입니다.

마치 로봇에게 "눈" (3D/사진) 과 "언어 능력" (자연어 이해) 을 동시에 선물하여, 복잡한 공사 현장이나 낯선 집에서도 "쓰레기통 치워줘", "벽에 걸린 시계 보여줘"라고 말하면 척척 알아듣고 행동하게 만든 것과 같습니다.