PROSPECT: Unified Streaming Vision-Language Navigation via Semantic--Spatial Fusion and Latent Predictive Representation

이 논문은 CUT3R 기반의 공간 인코더와 SigLIP 의 의미적 특징을 융합하고 잠재 예측 표현 학습을 통해 환경 역학을 모델링함으로써, 장기적 견고성과 실시간 성능을 동시에 확보한 통합 스트리밍 비전 - 언어 항법 에이전트 'PROSPECT'를 제안합니다.

Zehua Fan, Wenqi Lyu, Wenxuan Song, Linge Zhao, Yifei Yang, Xi Wang, Junjie He, Lida Huang, Haiyan Liu, Bingchuan Sun, Guangjun Bao, Xuanyao Mao, Liang Xu, Yan Wang, Feng Gao

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 로봇이 사람의 말을 듣고 복잡한 환경을 스스로 돌아다니는 기술, 즉 **'시각-언어 내비게이션 (VLN)'**을 획기적으로 개선한 **'PROSPECT'**라는 새로운 시스템을 소개합니다.

기존의 로봇들은 "앞으로 가", "왼쪽으로 돌아" 같은 명령을 따르기는 했지만, 앞으로 무슨 일이 일어날지 미리 상상하거나 (예측), 주변 공간의 3 차원 구조를 완벽하게 이해하는 데는 한계가 있었습니다.

이제 PROSPECT 가 어떻게 이 문제를 해결했는지, 일상적인 비유로 설명해 드릴게요.


🚀 PROSPECT: 로봇의 '예지력'과 '공간 감각'을 깨우친 시스템

1. 기존 로봇의 문제: "눈만 뜨고 걷는 사람"

기존의 AI 로봇들은 카메라로 보이는 것 (2 차원 이미지) 과 언어만 보고 움직였습니다. 마치 눈이 앞에만 집중된 채로 걷는 사람과 비슷합니다.

  • 문제점: "앞에 계단이 있나?"라고 생각하지 못해 넘어지거나, "저기 문이 닫혀 있겠지?"라고 예측하지 못해 벽에 부딪힙니다. 또한, 어두운 곳이나 빛이 반사되는 곳에서는 길을 잃기 쉽습니다.

2. PROSPECT 의 핵심 아이디어: "미래를 꿈꾸는 지도"

PROSPECT 는 로봇에게 두 가지 강력한 능력을 선물합니다.

① 3D 공간 감각 (CUT3R): "눈이 아닌 뇌로 보는 것"

  • 비유: 기존 로봇이 2D 사진 (평면 지도) 을 보고 길을 찾는다면, PROSPECT 는 **3D 입체 모델 (가상 현실)**을 머릿속에 그립니다.
  • 설명: 'CUT3R'이라는 기술을 써서, 로봇은 단순히 "저게 문이다"라고 보는 것을 넘어, "저 문은 내 위치에서 얼마나 떨어져 있고, 높이는 어느 정도이며, 앞으로 걸어가면 어떻게 변할지"를 **실제 크기와 거리 (Absolute Scale)**로 정확히 파악합니다. 이는 로봇이 어지러운 방에서도 길을 잃지 않게 해줍니다.

② 잠재적 예측 능력 (Latent Prediction): "내일의 날씨를 미리 예보하는 것"

  • 비유: 보통 로봇은 "지금 보이는 것"을 보고 "다음 행동"을 결정합니다. 하지만 PROSPECT 는 훈련 중에 "다음에 내가 보게 될 풍경은 어떨지"를 미리 상상하는 연습을 합니다.
  • 핵심: 로봇이 직접 "다음 장면을 그림으로 그려내라"고 하는 게 아니라, **"다음 장면을 이해하는 뇌의 상태 (잠재 특징)"**를 미리 예측하게 합니다.
    • 마치 운전 면허 시험에서, 실제 도로를 나가기 전에 "다음에 신호등이 빨간불로 바뀔지, 보행자가 나올지"를 머릿속으로 시뮬레이션하는 것과 같습니다.
    • 이 연습은 실제 운전 (이동) 할 때는 필요 없습니다. 하지만 이 연습을 통해 로봇의 뇌는 환경의 흐름을 훨씬 더 잘 이해하게 되어, 실제 이동 속도는 느려지지 않으면서 훨씬 똑똑해집니다.

3. 어떻게 작동할까요? (스트리밍 방식)

  • 비유: 영화를 볼 때, 한 장면을 보고 멈추는 게 아니라 영화가 끊김없이 흐르는 대로 계속 보고 판단합니다.
  • 설명: PROSPECT 는 과거의 기억 (장기 기억) 과 지금 당장의 상황 (단기 기억) 을 실시간으로 연결합니다. "방금 지나온 복도"와 "지금 보이는 문"을 자연스럽게 이어가며, 오래된 기억이 쌓여도 로봇이 기억력 부족 (메모리 부족) 으로 멈추지 않도록 설계되었습니다.

4. 실전 성과: "어둠 속에서도 길을 찾는 로봇"

이 논문은 실제 로봇 (ARX-Lift2) 을 이용해 실험했습니다.

  • 결과: 밝은 사무실뿐만 아니라, 어두운 밤거리, 해 질 녘, 복잡한 창고에서도 기존 로봇들보다 훨씬 잘 길을 찾았습니다.
  • 이유: 로봇이 단순히 "밝은 색을 보고 이동"하는 게 아니라, 공간의 구조와 미래의 변화를 예측했기 때문에, 빛이 변해도 길을 잃지 않았습니다.

💡 한 줄 요약

PROSPECT는 로봇에게 **"지금 보이는 것"을 넘어 "앞으로 일어날 일을 미리 상상하는 능력"**과 **"3 차원 공간을 입체적으로 이해하는 눈"**을 심어주어, 복잡한 환경에서도 사람처럼 자연스럽게 길을 찾을 수 있게 만든 차세대 내비게이션 시스템입니다.

이 기술은 앞으로 집안일을 돕는 로봇이나, 재난 현장의 구조 로봇이 더 안전하고 똑똑하게 일할 수 있는 기반이 될 것입니다.