FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"FindAnything(무엇이든 찾아라)"**이라는 이름의 새로운 로봇 지도 제작 시스템을 소개합니다. 이 시스템을 쉽게 이해할 수 있도록 일상적인 비유와 이야기로 풀어보겠습니다.

🤖 핵심 이야기: 로봇이 "눈"과 "뇌"를 동시에 갖다

전통적인 로봇은 미로 같은 건물을 탐험할 때 3D 지도를 만들었습니다. 하지만 이 지도는 "벽이 여기 있고, 바닥이 여기 있다"는 기하학적 정보만 담고 있었습니다. 마치 건축 도면처럼 생겼지만, "소파가 어디 있어?", "비상구가 어디 있지?" 같은 의미 있는 정보는 알 수 없었습니다.

최근에는 인공지능이 사진을 보고 "이건 개야, 저건 고양이야"라고 구분할 수 있게 되었습니다. 하지만 이 '지능'을 로봇이 실시간으로 움직이며 3D 지도에 담는 것은 매우 어렵습니다. 데이터가 너무 방대해서 로봇의 작은 컴퓨터 (뇌) 가 과부하가 걸리기 때문입니다.

FindAnything은 바로 이 문제를 해결합니다. **"기하학적 지도 + 언어 이해 능력"**을 결합하여, 로봇이 자연어로 "소방기 찾아줘"라고 말하면, 지도에서 그 물건을 찾아낼 수 있게 해줍니다.

🧩 어떻게 작동할까? (3 가지 핵심 비유)

이 시스템은 크게 세 가지 아이디어로 작동합니다.

1. "레고 블록"처럼 지도를 나누다 (서브맵)

대형 건물을 한 번에 지도로 그리려면 메모리가 터집니다. FindAnything 은 건물을 작은 방 (서브맵) 단위로 나눕니다.

비유: 거대한 도서관을 한 권의 책으로 만들지 않고, 각 책장을 작은 책상 위에 올려놓은 **작은 책상들 (서브맵)**로 나눈 것입니다. 로봇이 한 책상에서 다음 책상으로 이동할 때, 필요한 정보만 가져오면 되므로 메모리 부담이 훨씬 줄어듭니다.

2. "물건" 단위로 정보를 저장하다 (객체 중심)

기존 방식은 지도의 모든 '점 (픽셀)'에 정보를 붙였는데, 이는 메모리를 너무 많이 먹습니다. FindAnything 은 물건 단위로 정보를 묶습니다.

비유: 지도에 "벽의 왼쪽 1cm 는 빨간색, 오른쪽 1cm 는 파란색"이라고 적는 대신, **"이곳에 '소방기'가 있다"**라고 한 번에 적는 것과 같습니다. 로봇이 "소방기"를 찾으면, 그 물건이 있는 곳만 집중해서 검색하면 되므로 훨씬 빠릅니다.

3. "조각난 퍼즐"을 합치다 (오버세그멘테이션)

인공지능이 물건을 인식할 때, 때로는 '자동차' 전체를 하나로 보기도 하고, 때로는 '바퀴'나 '문'으로 잘게 나누기도 합니다. FindAnything 은 이 두 가지를 모두 활용합니다.

비유: 사용자가 **"자동차"**를 찾으면 큰 덩어리로, **"바퀴"**를 찾으면 잘게 쪼개진 부분으로 찾아줍니다. 이렇게 하면 로봇은 복잡한 물체의 세부적인 부분도 이해하면서도, 큰 개념도 놓치지 않게 됩니다.

🚁 실제 활용: 소방관 로봇의 활약

이 기술이 왜 중요한지 소방관 로봇의 예를 들어보겠습니다.

상황: 불이 난 건물의 안은 어둡고 연기 때문에 사람이 들어갈 수 없습니다.
기존 로봇: "여기 벽이 있고, 저기 문이 있어"라고만 보고, 소방관에게 "소방기 어디 있어?"라고 물어보면 "모르겠어요"라고 답합니다.
FindAnything 로봇: 소방관이 **"소방기 (Fire Extinguisher)"**라고 말하면, 로봇은 실시간으로 만든 지도에서 "아, 저기 주방에 소방기가 있네!"라고 찾아냅니다. 혹은 **"비상구 (Exit)"**를 찾아 대피 경로를 안내할 수도 있습니다.

이 모든 것이 로봇이 실시간으로 움직이며, 작은 드론 (MAV) 에 탑재된 제한된 컴퓨터에서도 가능하다는 점이 놀랍습니다.

🏆 이 시스템의 장점 (기존 기술과 비교)

빠르다: 다른 최신 기술들보다 훨씬 빠르게 지도를 만듭니다. (비유: 다른 기술이 거대한 도서관을 한 번에 정리하려다 지쳐서 10 시간 걸린다면, 이 기술은 필요한 책장만 빠르게 찾아 1 시간 만에 끝냅니다.)
가볍다: 메모리를 60% 이상 덜 사용합니다. 작은 드론이나 스마트폰 같은 제한된 장비에서도 작동할 수 있습니다.
똑똑하다: "불", "구급상자", "출구"처럼 미리 정해진 단어뿐만 아니라, 사람이 어떤 말을 하든 (Open-Vocabulary) 이해할 수 있습니다.

💡 결론

FindAnything은 로봇에게 **"눈 (카메라)"**과 **"말 (자연어)"**을 동시에 가르쳐, 미지의 공간에서도 인간과 대화하며 임무를 수행할 수 있게 만든 혁신적인 기술입니다. 이는 재난 현장, 구조 활동, 그리고 미래의 스마트 홈에서 로봇이 우리와 더 자연스럽게 협력하는 첫걸음이 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

배경: 구조 및 재난 대응 (Search and Rescue, S&R) 과 같은 비상 상황에서 로봇 (특히 소형 무인 항공기, MAV) 은 인간이 접근하기 어려운 위험한 환경에서 자율적으로 탐색하고, 지형뿐만 아니라 고수준의 의미론적 정보 (객체 위치, 방의 종류 등) 를 제공해야 합니다.
현재의 한계:
- 기존 3D 매핑 시스템은 주로 기하학적 정보에 의존하거나, 사전에 정의된 제한된 클래스 집합 (Closed-vocabulary) 만 인식할 수 있습니다.
- 오픈 보카불러리 (Open-vocabulary, 즉 자연어로 임의의 객체 검색 가능) 기능을 갖춘 비전 - 언어 (Vision-Language, VL) 모델 (예: CLIP) 을 3D 맵에 통합하려는 시도들은 존재하지만, 고차원 특징 벡터 (Feature Embeddings) 를 저장하는 데 막대한 메모리와 계산 자원이 필요합니다.
- 기존 방법들은 대규모 환경에서 실시간으로 작동하거나, 자원이 제한된 MAV 에 탑재하기에는 메모리 및 연산 효율성이 부족합니다.

2. 방법론 (Methodology)

논문에서 제안한 FindAnything은 대규모 환경에서 실시간으로 작동하며, 오픈 보카불러리 정보를 메모리 효율적으로 저장하는 객체 중심 (Object-Centric) 볼륨 매핑 프레임워크입니다.

시스템 아키텍처:
1. VI-SLAM (Visual-Inertial SLAM): OKVIS2-X 기반의 상태 추정 모듈을 사용하여 로봇의 포즈를 추정하고, 깊이 정보를 볼륨 점유 서브맵 (Submaps) 에 통합합니다.
2. 볼륨 점유 매핑 (Volumetric Occupancy Mapping): supereight2 프레임워크를 사용하여 환경을 작은 서브맵으로 분할합니다. 이는 대규모 환경에서의 확장성과 루프 클로저 (Loop Closure) 를 통한 드리프트 보정을 가능하게 합니다.
3. 비전 - 언어 특징 융합 (Vision-Language Feature Fusion):
  - 분할 기반 객체 추적: eSAM (Efficient Segment Anything Model) 을 사용하여 이미지에서 객체 시그먼트 (Segment) 를 생성하고, 이를 현재 맵의 시그먼트와 2D 이미지 공간에서 추적/정합합니다.
  - 객체 중심 특징 집계: 픽셀 단위가 아닌 객체 (또는 객체 부분) 단위로 CLIP 특징을 집계합니다. 각 시그먼트 ID 에 대해 가중 평균을 통해 특징 벡터 ( $\bar{f}_k$ ) 를 업데이트합니다.
  - 세분화 전략 (Oversegmentation): eSAM 이 제안하는 가능한 한 작은 단위로 객체를 분할하여 세분화된 쿼리 (예: "바퀴") 를 지원하면서도, VL 특징의 일반화 능력으로 큰 개념 (예: "자동차") 을 유지합니다.
- 메모리 효율성: 고차원 특징을 볼륨 내 모든 보크셀 (Voxel) 에 저장하는 대신, 객체 시그먼트 단위로 저장하여 메모리 사용량을 획기적으로 줄입니다.

3. 주요 기여 (Key Contributions)

메모리 효율적인 객체 중심 특징 집계: 이미지 기반 의미론적 과분할 (Oversegmentation), 시그먼트 추적 및 특징 임베딩 병합을 통해 고차원 VL 특징을 볼륨 맵에 효율적으로 통합하는 방법을 제시했습니다.
대규모 온라인 매핑 시스템 통합: 제안된 객체 중심 VL 매핑 방식을 서브맵 기반의 시각 - 관성 SLAM 시스템과 통합하여, 자원이 제한된 플랫폼 (MAV 등) 에서도 대규모 환경의 실시간, 저비용 매핑을 가능하게 했습니다.
성능 평가 및 비교: 시뮬레이션 및 실외/실내 벤치마크에서 FindAnything 이 최신 기법 (State-of-the-Art) 과 동등하거나 더 높은 의미론적 정확도를 유지하면서, 처리 속도는 훨씬 빠르고 메모리 사용량은 최대 60% 적게 소요됨을 입증했습니다.
다운스트림 태스크 적용: 자연어 쿼리를 통해 로봇의 자율 탐색을 유도하는 시나리오 (화재 구조 시나리오) 를 MAV 에 탑재하여 성공적으로 시연했습니다.

4. 실험 결과 (Results)

내부 환경 (Replica Dataset):
- 정확도: RayFronts, ConceptFusion 등 최신 기법들과 비교하여 높은 mAcc(평균 정확도) 와 f-mIoU(교집합 합계) 를 기록했습니다. 특히 NARADIO 인코더를 사용할 때 RayFronts 와 유사하거나 더 높은 정확도를 보였습니다.
- 속도: 기존 방법들 (HOV-SG, RayFronts 등) 에 비해 시퀀스 처리 시간이 훨씬 짧았습니다 (예: RayFronts 9m 19s vs FindAnything 5m 24s).
대규모 외부 환경 (Semantic KITTI):
- 확장성: RayFronts 는 고해상도 (0.1m) 에서 GPU 메모리 부족으로 실패한 반면, FindAnything 은 0.1m 해상도에서도 성공적으로 매핑을 수행했습니다.
- 자원 효율성: FindAnything 은 RayFronts 대비 약 40% 의 메모리만 사용하면서도 더 높은 f-mIoU 를 달성했습니다.
- Ablation Study: eSAM 사용, 특징 융합 전략, 서브맵 분할이 정확도, 속도, 메모리 사용량 간의 최적 균형을 제공함을 입증했습니다.
자율 탐색 (MAV Exploration):
- "침실 (bed)"이나 "화장실 (bathroom)"과 같은 자연어 쿼리를 통해 탐색을 유도했을 때, 의미론적 정보가 없는 기존 탐색 방법보다 재구성 정확도 (Mesh Completeness) 와 RMSE가 모두 우수했습니다.
실제 환경 (Real-world):
- NVIDIA Jetson Orin NX 가 탑재된 실제 MAV 에서 온라인으로 실행되었으며, 화재 대응 시나리오 (소화기, 주방 찾기) 에서 실시간으로 작동함을 시연했습니다.

5. 의의 및 결론 (Significance & Conclusion)

실시간성과 확장성: FindAnything 은 자원이 제한된 로봇 (MAV) 에서도 대규모 환경을 실시간으로 매핑하고, 오픈 보카불러리 쿼리에 응답할 수 있는 최초의 시스템 중 하나입니다.
재난 대응 적용 가능성: 화재, 구조 활동과 같이 사전 지식이 없어도 임의의 객체나 장소를 찾아야 하는 비상 상황에서 로봇의 자율성과 안전성을 크게 향상시킵니다.
기술적 혁신: 고비용인 비전 - 언어 모델의 특징을 3D 볼륨 맵에 효율적으로 통합하는 새로운 패러다임 (객체 중심 집계) 을 제시하여, 향후 로봇의 의미론적 이해 및 상호작용 연구의 기반을 마련했습니다.

이 연구는 로봇이 단순히 기하학적 공간을 인식하는 것을 넘어, 인간의 자연어 명령을 이해하고 복잡한 환경에서 지능적으로 탐색할 수 있는 토대를 구축했다는 점에서 중요한 의미를 가집니다.