SysNav: Multi-Level Systematic Cooperation Enables Real-World, Cross-Embodiment Object Navigation

이 논문은 시맨틱 추론, 내비게이션 계획, 운동 제어를 계층적으로 분리하여 다양한 로봇 플랫폼에서 복잡한 실외 환경의 대규모 장거리 객체 탐색을 성공적으로 수행하는 새로운 시스템 'SysNav'를 제안합니다.

Haokun Zhu, Zongtai Li, Zihan Liu, Kevin Guo, Zhengzhi Lin, Yuxin Cai, Guofei Chen, Chen Lv, Wenshan Wang, Jean Oh, Ji Zhang

게시일 Tue, 10 Ma
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

SysNav: 로봇이 건물을 거뜬히 찾아다니는 '초능력의 비서' 이야기

이 논문은 로봇이 복잡한 현실 세계에서 "침실의 흰색 의자"나 "거실의 냉장고" 같은 특정 물건을 찾아내는 문제 (Object Navigation) 를 어떻게 해결했는지 소개합니다. 기존 로봇들은 미로 같은 건물에서 길을 잃거나, 너무 천천히 움직여 실패하는 경우가 많았죠.

저자들은 이 문제를 해결하기 위해 SysNav라는 새로운 시스템을 만들었습니다. 이 시스템을 이해하기 위해 마치 **"고급 로봇을 위한 3 단계 지휘 체계"**라고 상상해 보세요.


🏢 1. 문제: 로봇은 왜 길을 잃을까?

기존 로봇들은 마치 **"눈이 먼 채로 벽을 더듬어가는 사람"**처럼 행동했습니다.

  • 단점: 모든 것을 한 번에 처리하려다 보니 (End-to-End), 복잡한 건물 구조를 이해하지 못하거나, "냉장고는 부엌에 있을 것"이라는 상식 (Semantic Reasoning) 을 활용하지 못해 엉뚱한 방을 헤매는 경우가 많았습니다.
  • 현실의 어려움: 시뮬레이션 (가상 세계) 에서는 잘 작동해도, 실제 건물의 복잡한 구조와 센서 노이즈 앞에서 쉽게 무너졌습니다.

🧠 2. 해결책: SysNav 의 3 단계 지휘 체계

저자들은 로봇을 한 명의 천재가 모든 일을 하게 하는 대신, 세 명의 전문가 팀으로 나누어 일을 시켰습니다.

1 단계: 고위급 지휘관 (High-Level) - "VLM(시각 - 언어 모델) 비서"

  • 역할: 전체 지도를 보고 "어디로 가야 할지" 큰 그림을 그립니다.
  • 비유: 마치 여행 가이드처럼 행동합니다. "우리가 찾는 '흰색 의자'는 보통 '침실'이나 '서재'에 있을 거야. 부엌이나 화장실은 일단 제외하자"라고 판단합니다.
  • 핵심: 로봇이 방 전체를 다 뒤지는 게 아니라, 방 (Room) 단위로 결정을 내립니다. VLM 의 뛰어난 상식 능력을 활용하되, 너무 세세한 것 (예: 의자가 테이블 옆에 있는지) 까지 신경 쓰지 않게 해서 효율을 높였습니다.

2 단계: 중위급 계획관 (Mid-Level) - "탐색 전략가"

  • 역할: 지휘관이 정한 "다음 방"으로 가는 경로를 설계합니다.
  • 비유: 탐험대장입니다. "지휘관이 '침실'로 가라고 했으니, 침실 문까지 가는 길을 짜고, 침실 안에서는 효율적으로 구석구석 훑어보자"라고 명령합니다.
  • 핵심:
    • 방 안 (In-room): 전통적인 알고리즘을 써서 빠르고 정확하게 방 안을 다 훑습니다. (VLM 이 개입하지 않음)
    • 방 사이 (Cross-room): VLM 의 지시를 받아 다음 방을 선택하거나, "아, 이 방에는 없네. 바로 다른 방으로 가자!"라고 미리 멈추는 (Early-stop) 지능적인 결정을 내립니다.

3 단계: 저위급 조종사 (Low-Level) - "운동 제어부"

  • 역할: 계획된 경로를 실제로 움직이는 것입니다.
  • 비유: 운전 기사입니다. "앞으로 10 미터 가라", "좌회전 하라"는 명령을 받으면 바퀴나 다리를 움직여 충돌 없이 안전하게 이동합니다.
  • 핵심: 바퀴 로봇, 4 발 로봇 (강아지), 2 발 로봇 (인간형) 등 모든 종류의 로봇에 적용할 수 있도록 설계되어 있어, 로봇의 몸체 (Embodiment) 가 달라도 똑같이 작동합니다.

🌟 3. 핵심 기술: "구조화된 장면 지도"

이 시스템의 가장 큰 특징은 로봇이 세상을 보는 방식입니다.

  • 기존 방식: 카메라로 찍은 이미지나 점 (Point Cloud) 덩어리를 그대로 봅니다.
  • SysNav 방식: 세상을 **그래프 (Graph)**로 정리합니다.
    • **방 (Room)**이라는 큰 박스를 만들고, 그 안에 **시점 (Viewpoint)**과 **물체 (Object)**를 넣습니다.
    • "부엌에는 냉장고가 있고, 냉장고 옆에 식탁이 있다"는 식으로 관계를 저장합니다.
    • 이렇게 정리된 지도를 VLM 비서에게 보여주면, 비서는 "아, 냉장고가 있는 부엌을 먼저 가보자"라고 쉽게 추론할 수 있습니다.

🚀 4. 성과: 현실 세계에서의 압도적인 승리

이 시스템은 실제 실험에서 놀라운 결과를 보여주었습니다.

  • 다양한 로봇: 바퀴 달린 로봇, 강아지 로봇 (Unitree Go2), 인간형 로봇 (Unitree G1) 등 3 가지 다른 로봇에서 모두 성공했습니다.
  • 거대 규모: 하나의 건물을 통째로 돌아다니며 (Building-scale) 물건을 찾았습니다.
  • 실험 결과:
    • 190 번의 실제 실험을 진행했고, 성공률이 기존 방법보다 4~5 배나 빨라졌습니다.
    • 특히 어려운 상황 (여러 방을 거쳐야 하는 경우) 에서도 98% 이상의 성공률을 기록했습니다.
    • 시뮬레이션 (가상 환경) 테스트에서도 최상위권 (State-of-the-Art) 성적을 냈습니다.

💡 5. 요약: 왜 이것이 중요한가?

이 연구는 로봇이 **"생각 (Reasoning)"**과 **"움직임 (Control)"**을 분리해서 처리함으로써, 복잡한 현실 세계에서 길을 잃지 않고 빠르게 목표를 달성할 수 있음을 증명했습니다.

한 줄 요약:

"SysNav 은 로봇에게 '지도'와 '상식'을 가르쳐, 복잡한 건물을 헤매지 않고 목적지까지 가장 빠른 길로 찾아갈 수 있게 한 혁신적인 시스템입니다."

이 기술은 앞으로 재해 구조, 물류 배송, 혹은 우리 집 안의 물건을 찾아주는 로봇 서비스 등 다양한 분야에서 큰 역할을 할 것으로 기대됩니다.