History-Conditioned Spatio-Temporal Visual Token Pruning for Efficient Vision-Language Navigation

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **로봇이 사람의 말을 듣고 길을 찾도록 가르치는 기술 (Vision-Language Navigation)**을 더 빠르고 가볍게 만드는 방법에 대해 다룹니다.

쉽게 비유하자면, **"로봇의 뇌가 너무 무거워서 길을 찾을 때 지친다는 문제"**를 해결한 이야기입니다.

🤖 상황: 로봇이 길을 찾을 때 겪는 '두뇌 과부하'

최근 로봇은 사람의 말 (예: "거실로 가서 소파 옆에 있는 빨간 컵을 가져와") 을 보고 스스로 움직이는 'VLA(비전-언어-행동)' 모델을 사용합니다. 이 모델은 마치 수만 권의 책을 한 번에 읽으며 그림을 분석하는 천재와 같습니다.

하지만 문제는 이 천재가 너무 무겁고 느리다는 것입니다.

로봇이 걸을 때마다 매번 모든 정보를 처리하려다 보니, 생각하는 속도가 발걸음보다 느려집니다.
마치 거대한 백과사전 전체를 펼쳐서 한 장 한 장 확인하며 길을 찾는 것과 같아서, 실제로는 너무 지체되어 실시간으로 반응하기 어렵습니다.

✂️ 해결책: "불필요한 정보 잘라내기 (Token Pruning)"

저자들은 이 문제를 해결하기 위해 **"로봇이 볼 필요가 없는 정보는 과감히 잘라내자"**는 아이디어를 제안했습니다. 이를 **'토큰 가지치기 (Token Pruning)'**라고 합니다.

하지만 단순히 무작위로 잘라내면 로봇이 길을 잃을 수 있습니다. 그래서 저자들은 두 가지 핵심 전략을 사용했습니다.

1. "지금 보고 있는 것"과 "과거 기억"을 다르게 다룬다

로봇이 길을 찾을 때는 현재 눈앞에 보이는 것과 **방금 지나온 길 (과거의 기억)**이 모두 중요합니다.

현재 화면 (Current View): 지금 눈앞에 있는 중요한 사물 (문, 장애물, 목표물) 은 모두 다 챙겨야 합니다. (정밀한 공간 선택)
과거 기억 (History): 지나온 길의 정보는 중복되는 부분을 줄여서 요약해야 합니다. (시간적 압축)

비유:
길을 가다가 지금 눈앞에 큰 바위가 있다면 (현재), 그 바위의 모양을 자세히 봐야 하지만, **10 분 전에 지나간 작은 돌멩이들 (과거)**은 기억할 필요 없이 "저기 지나갔어" 정도로 요약해도 됩니다. 이 논문은 지금 중요한 것은 자세히 보고, 과거는 요약해서 기억하게 해줍니다.

2. "가장 중요한 것"과 "다양한 것"을 골라낸다 (A-MMR 전략)

무작정 잘라내는 게 아니라, 두 가지 기준으로 정보를 골라냅니다.

중요도 (Semantics): "이게 목표물인가?" (예: 문, 계단)
다양성 (Diversity): "이미 본 것과 너무 비슷한 건 빼자." (예: 벽지 무늬가 반복되면 하나만 남김)

비유:
여행 가방을 싸는 상황을 생각해 보세요.

중요도: 여권, 항공권은 무조건 챙겨야 합니다.

다양성: 빨간 셔츠 10 장을 다 넣을 필요 없이, 빨간 셔츠 1 장만 넣으면 됩니다. (너무 비슷한 건 빼고)
이 논문은 로봇에게 **"가장 중요한 것 (여권) 과 다양한 것 (옷장 전체의 색상) 만 골라 넣는 지혜"**를 가르쳐 줍니다.

🚀 결과: 빠르고 똑똑해진 로봇

이 방법을 적용한 결과, 놀라운 변화가 일어났습니다.

속도 향상: 불필요한 정보를 90% 이상 잘라내도, 로봇의 이동 속도와 반응 속도가 훨씬 빨라졌습니다. (기존보다 10% 이상 빠름)
정확도 유지: 정보를 많이 잘라냈지만, 길을 찾는 정확도는 오히려 다른 방법들보다 더 높았습니다. (중요한 정보는 놓치지 않았기 때문)
실제 로봇 적용: 이 기술을 **Unitree Go2(사냥개 모양의 4 발 로봇)**에 직접 탑재해서 테스트했습니다. 클라우드 서버에 의존하지 않고 로봇 자체에서 빠르게 명령을 수행하며 성공적으로 길을 찾았습니다.

💡 한 줄 요약

"로봇이 길을 찾을 때, 모든 정보를 다 보려고 하지 말고 '지금 중요한 것'과 '과거의 핵심 요약'만 골라보게 하여, 무거운 두뇌를 가볍게 만들어 빠른 속도로 길을 찾게 만든 기술입니다."

이 연구는 거대한 인공지능 모델을 실제 로봇에 적용할 때 발생하는 '무거움'과 '느림'의 문제를 해결하여, 앞으로 우리 집이나 사무실에서 더 민첩하게 일할 수 있는 로봇을 만드는 데 큰 기여를 할 것으로 기대됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

배경: 비전 - 언어 - 행동 (Vision-Language-Action, VLA) 모델은 로봇이 자연어 지시를 따라 시각적으로 지상화된 환경에서 항해 (Navigation) 하는 능력을 부여하여 embodied AI 의 핵심 기술로 부상했습니다.
도전 과제: VLA 모델은 일반적으로 Transformer 기반이며 계산 비용이 매우 높습니다. Vision-Language Navigation (VLN) 은 실시간으로 폐루프 (closed-loop) 의사결정이 필요하므로, 높은 계산 부하로 인한 지연 (latency) 이 실제 로봇 배포를 제한하는 주요 병목 현상이 됩니다.
기존 방법의 한계: 기존의 비전 토큰 가지치기 (Token Pruning) 기법들은 주로 단일 이미지나 반응형 설정에 초점을 맞추고 있습니다. 그러나 VLN 은 과거의 관찰 (history) 을 기반으로 한 시공간적 (spatio-temporal) 추론이 필수적이므로, 단순히 현재 프레임만 처리하는 기존 방식은 VLN 의 고유한 구조를 반영하지 못해 정보 손실이나 비효율성을 초래할 수 있습니다.

2. 제안 방법론 (Methodology)

저자들은 학습이 필요 없는 (training-free) 시공간 비전 토큰 가지치기 프레임워크를 제안합니다. 이 방법은 사전 훈련된 VLA 모델의 파라미터를 수정하지 않고 플러그 - 앤 - 플레이 방식으로 통합됩니다.

핵심 아이디어: "현재"와 "과거"의 차별적 처리

현재 프레임 (Spatial Selection): 현재 관측된 시각 정보를 포괄적으로 표현하기 위해 공간적 토큰 선택을 수행합니다.
과거 프레임 (Spatio-Temporal Compression): 과거의 기억 (history) 은 현재 뷰와 관련된 정보만 선별하여 시공간적으로 압축하여 불필요한 계산을 줄입니다.

주요 구성 요소

특징 추출 및 중요도 계산 (Feature Extraction & Importance):
- Vision Encoder 를 통해 패치 토큰을 생성합니다.
- 전역 [CLS] 토큰과 공간 패치 토큰 간의 코사인 유사도를 계산하여 각 토큰의 기본 중요도 ( $I_{base}$ ) 를 산출합니다. 이는 주의 집중 (attention) 을 기반으로 의미적으로 중요한 영역 (목표, 장애물 등) 을 강조합니다.
적응형 최대 한계 관련성 (Adaptive Maximal Marginal Relevance, A-MMR):
- 기존 MMR 을 개선한 전략으로, 하드 코딩된 토큰 분할 없이 반복적인 형식을 통해 **중요도 (Semantics)**와 **다양성 (Diversity)**을 동시에 균형 있게 고려합니다.
- 목표: 높은 주의 집중을 가진 객체를 우선 선택하되, 이미 선택된 토큰과 유사도가 낮은 (다양한) 배경 정보를 추가로 선택하여 포괄적인 표현을 유지합니다.
쿼리 기반 재가중치 (Query-Guided Re-weighting) - 과거 프레임용:
- 현재 프레임에서 선택된 토큰들을 쿼리 ( $Q$ ) 로 사용합니다.
- 과거 프레임의 각 토큰에 대해 현재 뷰와의 시공간적 관련성 ( $R$ ) 을 계산하고, 이를 기본 중요도와 결합하여 최종 중요도 ( $I_{final}$ ) 를 산출합니다.
- 이를 통해 현재 작업과 무관한 과거 정보는 제거하고, 현재 맥락과 관련된 중요한 과거 기억만 선별적으로 유지합니다.
행동 예측:
- 선별된 고밀도 정보 토큰 집합을 Projector 와 LLM 에 입력하여 최종 항해 행동 시퀀스를 예측합니다.

3. 주요 기여 (Key Contributions)

미개척 문제 해결: VLA 기반 VLN 에서 장기적 의사결정에 필요한 시공간 정보를 유지하면서 효율적인 토큰 가지치기를 수행하는 방법을 최초로 체계적으로 연구했습니다.
학습 불필요 시공간 프레임워크: 현재 프레임에 대한 공간적 선택과 과거 프레임에 대한 시공간적 메모리 압축을 명시적으로 구분하는 새로운 아키텍처를 제안했습니다. 이는 추가 학습 없이도 장기 항해 (long-horizon navigation) 를 가능하게 합니다.
성능 및 효율성 입증: 표준 벤치마크 (R2R, RxR) 와 실제 로봇 (Unitree Go2) 배포를 통해 기존 방법 (SparseVLM, DivPrune, VisPruner) 보다 뛰어난 성능과 효율성을 입증했습니다.

4. 실험 결과 (Results)

벤치마크 성능 (R2R 및 RxR):
- 90% 가지치기 비율에서 기존 최첨단 방법들보다 **SPL (Success weighted by Path Length)**이 크게 향상되었습니다. (예: R2R 에서 SparseVLM 대비 12.04%, DivPrune 대비 18.35% 향상).
- 극단적인 가지치기 상황에서도 항해 정확도를 유지하며, 오히려 가지치기를 하지 않은 모델보다 Oracle Success Rate (OS) 가 높은 경우도 관찰되었습니다.
효율성 (Efficiency):
- CUDA 추론 지연 시간 (Latency): 가지치기 전 231.34ms 에서 213.40ms 로 감소하여, 기존 방법들보다 더 큰 지연 시간 단축 효과를 보였습니다.
- 처리량 (Throughput): 90% 가지치기 시 가장 높은 FPS 를 기록했습니다.
실제 로봇 배포 (Real-world Deployment):
- Unitree Go2 4 족 보행 로봇에 탑재하여 실험했습니다.
- 엣지 장치 (NVIDIA Jetson Thor) 에서 완전히 온보드 (onboard) 로 실행되었으며, 클라우드 연결 없이도 저지연으로 지시 수행이 가능함을 검증했습니다.
- 가지치기를 적용했을 때 추론 시간이 약 1.43 초에서 1.25 초로 단축되었으며, 연속적인 운동 제어에 큰 방해를 주지 않았습니다.

5. 의의 및 결론 (Significance)

이 연구는 대규모 멀티모달 기초 모델 (Foundation Models) 과 실시간으로 작동하는 embodied 로봇 시스템 간의 간극을 해소하는 중요한 단계입니다.

실용성: 추가 학습 없이 기존 VLA 모델을 즉시 최적화할 수 있어, 리소스가 제한된 실제 로봇 환경에 적용하기 매우 용이합니다.
혁신성: VLN 의 고유한 "시공간적 (Spatio-Temporal)" 특성을 고려한 가지치기 전략을 통해, 단순한 계산량 감소가 아닌 작업 관련 정보의 보존을 극대화했습니다.
미래 전망: 복잡한 환경에서 실시간으로 지시를 따르는 로봇 항해 시스템의 상용화와 신뢰성 있는 배포를 위한 핵심 기술로 평가됩니다.