Seeing Space and Motion: Enhancing Latent Actions with Geometric and Dynamic Awareness for Vision-Language-Action Models

Each language version is independently generated for its own context, not a direct translation.

이 논문은 로봇이 세상을 더 똑똑하게 보고, 미래를 예측하며, 자연스럽게 움직일 수 있도록 돕는 새로운 기술인 SSM-VLA에 대해 설명합니다.

기존 로봇들은 "지금 보이는 것"만 보고 "지금 당장 할 일"을 결정하는 경우가 많았습니다. 하지만 이 새로운 방법은 **"먼저 머릿속으로 미래를 상상한 뒤, 그 상상을 바탕으로 행동한다"**는 아이디어를 적용했습니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 문제점: 로봇의 "눈"과 "시간 감각" 부족

기존 로봇들은 두 가지 큰 약점이 있었습니다.

눈이 나빴습니다 (공간 감각 부족): 로봇이 물체를 볼 때, 단순히 "빨간색 상자"라고만 인식하지, "상자가 책상 위에 있고, 그 아래에 서랍이 있다"는 3 차원적인 구조를 제대로 이해하지 못했습니다. 마치 2D 그림만 보고 3D 세상을 이해하려는 것과 비슷합니다.
시간 감각이 짧았습니다 (동작 예측 부족): 로봇이 "지금"과 "1 초 뒤"만 보다가 행동을 결정했습니다. 그래서 "컵을 잡으려면 먼저 손가락을 벌려야 하고, 그다음에 들어올려야 한다"는 연속적인 흐름을 놓쳐서 자주 실패했습니다.

2. 해결책: SSM-VLA 의 세 가지 마법

이 연구팀은 로봇에게 세 가지 능력을 길러주었습니다.

① "투명한 안경"을 끼게 했다 (기하학적 인식)

기존 로봇은 물체의 색깔이나 질감만 보았지만, 이 모델은 DINOv2라는 강력한 안경을 끼게 했습니다. 이 안경은 물체의 표면뿐만 아니라 **깊이 (Depth)**와 구조를 볼 수 있게 해줍니다.

비유: 마치 어둠속에서 물체를 볼 때, 단순히 형체만 보는 게 아니라 "저 물체는 얼마나 멀리 있고, 어떤 모양으로 놓여 있는가"를 정확히 파악하는 3D 안경을 쓴 것과 같습니다.

② "시간 여행"을 가르쳤다 (멀티 스케일 시간 모델링)

로봇에게 "지금"과 "10 초 뒤"의 상황을 동시에 보게 했습니다.

비유: 체스 선수가 한 수를 두기 전에 "다음 3~4 수 뒤의 판"을 미리 상상하는 것과 같습니다. 로봇은 "손을 뻗으면 1 초 뒤에는 컵이 흔들리고, 2 초 뒤에는 떨어질 수 있다"는 동적인 흐름을 미리 계산합니다.

③ "머릿속 시뮬레이션"을 실행했다 (시각적 사고 Chain-of-Thought)

이게 가장 중요한 부분입니다. 로봇이 바로 행동을 하지 않고, "먼저 머릿속으로 미래를 그려본 뒤" 행동을 합니다.

비유: 요리사가 요리를 하기 전에 "재료를 자르면 어떻게 변할까?", "냄비에 넣으면 어떻게 끓을지"를 상상하고 나서 실제로 손길을 움직이는 것과 같습니다.
1. 상상 (Visual CoT): "내가 이 상자를 열면, 서랍이 어떻게 열릴지"를 머릿속 영상으로 봅니다.
2. 계획 (잠재 행동): 그 상상에 맞춰 "어떻게 움직여야 할지" 추상적인 계획을 세웁니다.
3. 실행 (행동): 최종적으로 로봇 팔을 움직입니다.

3. 실제 성과: 로봇이 얼마나 똑똑해졌나요?

이 기술을 적용한 로봇은 다음과 같은 놀라운 성과를 냈습니다.

복잡한 미션 성공: "서랍을 열고, 빨간 블록을 꺼내서, LED 를 켜고, 다시 서랍을 닫아라"처럼 여러 단계로 이어진 복잡한 일도 잘 해냈습니다.
새로운 환경 적응: 훈련받지 않은 새로운 방 (환경 D) 에 가도, 배운 원리를 응용해 잘 작동했습니다.
실제 로봇 테스트: 시뮬레이션뿐만 아니라 실제 로봇 팔 (AgileX Piper) 을 이용해 장난감을 상자에 넣는 실험에서도 성공했습니다.

4. 핵심 요약

이 논문은 로봇에게 **"세상을 3D 로 제대로 보고, 시간을 건너뛰어 미래를 상상하며, 그 상상을 바탕으로 행동하는 능력"**을 심어주었습니다.

기존의 로봇이 **"보고 -> 바로 행동"**했다면, 이 새로운 로봇은 **"보고 -> 미래를 상상하고 구조를 파악 -> 계획 세우기 -> 행동"**이라는 과정을 거칩니다. 마치 인간이 복잡한 일을 할 때 머릿속으로 시뮬레이션을 돌려보는 것과 똑같은 원리입니다.

이 기술은 로봇이 더 안전하고, 똑똑하며, 인간처럼 유연하게 일할 수 있는 미래를 여는 중요한 한 걸음입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

기존의 잠재 행동 모델 (Latent Action Models, LAMs) 은 대규모 비주석 데이터로부터 시각 - 언어 - 행동 (VLA) 시스템이 의미 있는 행동 표현을 학습할 수 있게 하지만, 두 가지 주요 병목 현상으로 인해 안정적이고 명확한 행동 모델링에 한계가 있었습니다.

부족한 공간 이해 (Inadequate Spatial Understanding): 기존 모델은 주로 RGB 이미지에 의존하여 학습되므로, 표면 질감 (texture) 에 편향되어 객체 간의 관계나 장면의 배치와 같은 기하학적 구조 (geometric structure) 를 제대로 이해하지 못합니다.
제한된 시간적 지각 (Limited Temporal Perception): 대부분의 방법이 희소하고 2 프레임 (현재와 다음) 만을 입력으로 사용하므로, 장기적인 동역학 (long-term dynamics) 과 미세한 운동 전환을 포착하지 못해 시간적 일관성이 떨어집니다.

이러한 결함은 로봇의 의사결정 신뢰도를 저하시키고, 장기 작업 계획 수립을 어렵게 만듭니다.

2. 제안 방법론 (Methodology)

저자들은 Farsighted-LAM 과 이를 기반으로 한 SSM-VLA (Seeing Space and Motion - VLA) 프레임워크를 제안합니다.

A. Farsighted-LAM (지향성 잠재 행동 모델)

기하학적 인식과 다중 스케일 시간 모델링을 통해 잠재 행동의 정확도를 높이는 모델입니다.

기하학적 인식 공간 인코딩: 단순 RGB 입력 대신 DINOv2 특징과 깊이 (Depth) 정보를 활용합니다. DINOv2 는 구조적 사전 지식 (공간 배치, 암시적 깊이, 객체 관계) 을 인코딩하여 기하학적으로 일관된 장면 이해를 가능하게 합니다.
다중 스케일 시간 모델링: 단일 프레임 쌍 대신 연속된 미래 프레임 시퀀스 ( $N$ 개의 키 프레임) 를 입력받아 처리합니다. 이를 통해 지속되는 운동 경향성과 순간적인 상호작용 (접촉, 조작 등) 을 모두 포착합니다.
인코더 - 디코더 구조:
- 인코더: 현재 프레임과 미래 $N$ 개의 키 프레임을 받아 연속된 잠재 행동 벡터를 생성하고, 이를 학습된 코드북 (Codebook) 을 통해 이산 토큰으로 양자화합니다.
- 디코더: 현재 프레임과 양자화된 잠재 행동 토큰만으로 미래의 RGB 및 깊이 프레임을 재구성합니다. 이는 잠재 행동이 시각적 질감뿐만 아니라 공간 구조까지 학습했음을 보장합니다.
- 손실 함수: 재구성 손실은 RGB 의 광도학적 손실 (Photometric loss) 과 깊이 정보의 기하학적 일관성 손실 (Gradient-aware depth loss) 을 결합합니다.

B. SSM-VLA (전체 VLA 프레임워크)

Farsighted-LAM 을 통합한 엔드 - 투 - 엔드 VLA 시스템으로, 시각적 사고의 연쇄 (Visual Chain-of-Thought, CoT) 를 도입합니다.

3 단계 캐스케이드 아키텍처:
1. 시각적 CoT 예측 (VisualCoT Prediction): 현재 관찰과 언어 명령을 기반으로 미래의 시각 상태 (RGB 및 깊이) 를 먼저 예측합니다 ("먼저 상상하고, 그다음 행동"). 이는 환경의 동역학을 명시적으로 추론하게 합니다.
2. 지향성 잠재 행동 추론 (Farsighted Latent Action Inference): 예측된 미래 시각 상태와 맥락을 바탕으로 장기적인 잠재 행동 계획 (Latent Action Plan) 을 생성합니다. 이는 고수준 작업 의도와 저수준 실행을 분리하여 플랫폼 간 전이성을 높입니다.
3. 행동 생성 (Action Generation): 모든 맥락 정보 (과거, 예측된 미래, 잠재 행동 계획) 를 통합하여 실제 로봇의 모터 명령을 생성합니다.
다중 모달 시너지 어텐션 (Multi-modal Synergistic Attention): 단일 트랜스포머 내에서 각 단계 (시각 예측, 잠재 계획, 행동 생성) 가 필요한 정보에만 집중하도록 설계된 인과적 마스크 (Causal Mask) 를 적용하여 정보 누출을 방지하고 추론 능력을 극대화합니다.

3. 주요 기여 (Key Contributions)

Farsighted-LAM 제안: 공간 구조 이해와 다중 스케일 시간 모델링을 강화하여 장면 구조와 동적 운동 패턴을 강력하게 표현하는 잠재 행동 모델을 개발했습니다.
SSM-VLA 프레임워크: 기하학적 인식과 시각적 CoT 모듈을 통합하여 환경 동역학을 명시적으로 추론함으로써, 의사결정 일관성과 해석 가능성을 향상시켰습니다.
SOTA 성능 달성: 시뮬레이션 및 실제 로봇 환경에서의 실험을 통해 기존 모델들을 능가하는 성능을 입증했습니다.

4. 실험 결과 (Results)

CALVIN 벤치마크 (시뮬레이션):
- Franka Panda 로봇을 사용한 CALVIN ABC-D 벤치마크에서 State-of-the-Art (SOTA) 성능을 달성했습니다.
- 연속 작업 성공률 (Task completed in a row) 과 평균 성공 체인 길이 (Avg. Len.) 에서 기존 모델 (Roboflamingo, Moto-GPT, Seer, VPP 등) 보다 모두 우월한 성능을 보였습니다. (예: 평균 성공 체인 길이 4.38 vs 2차 순위 4.29).
실제 로봇 실험:
- AgileX Piper 로봇을 사용하여 실제 환경 (혼란스러운 배경 포함) 에서 장난감을 상자에 넣는 작업을 수행하여 성공적인 배포와 강력한 일반화 능력을 입증했습니다.
Ablation Study (성분 분석):
- Farsighted 구조: 3 프레임 컨텍스트 사용이 단일 프레임보다 성능을 향상시켰으며, LAM 모듈 제거 시 성능이 크게 저하됨을 확인했습니다.
- 시너지 어텐션: 단순한 인과적 어텐션 대신 제안된 구조적 어텐션을 사용할 때 성능이 급격히 향상되어 (평균 길이 3.70 → 4.38), 모달 간 정보 누출 방지의 중요성을 입증했습니다.
- 기하학적 사전 지식 (Depth): 깊이 정보가 필요한 작업 (서랍 밀기 등) 에서 깊이 supervision 을 제거할 경우 성공률이 유의미하게 감소하여, 3D 공간 추론에 깊이가 필수적임을 보였습니다.

5. 의의 및 결론 (Significance)

이 논문은 embodied intelligence(구체적 지능) 시스템의 강건성과 일반화 능력을 향상시키기 위해 기하학적 인식 (Geometry-aware modeling), 시간적 일관성 (Temporal coherence), 그리고 명시적 추론 (Explicit reasoning) 을 결합하는 전략의 유효성을 입증했습니다.

특히, 잠재 행동 모델이 단순히 픽셀 예측을 넘어 공간 구조와 운동 동역학을 동시에 학습할 수 있도록 하고, 이를 시각적 CoT를 통해 행동 결정에 반영함으로써, 로봇이 복잡한 장기 작업을 더 안정적이고 해석 가능하게 수행할 수 있는 새로운 패러다임을 제시했습니다. 이는 대규모 데이터 기반의 적응형 범용 에이전트 개발에 중요한 기여를 합니다.