Ego-Vision World Model for Humanoid Contact Planning

Each language version is independently generated for its own context, not a direct translation.

이 논문은 로봇이 넘어지지 않고, 물건을 막거나, 낮은 문턱을 통과할 때 우리처럼 '몸을 이용해 환경과 접촉'하는 법을 스스로 배우는 방법에 대해 설명합니다.

기존의 로봇은 "부딪히지 말라"는 규칙만 따르느라 복잡한 환경에서 자유롭지 못했습니다. 이 연구팀은 로봇이 벽에 기대거나, 날아오는 공을 막는 등 적극적으로 접촉을 활용하는 기술을 개발했습니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

🤖 1. 핵심 아이디어: "로봇의 상상력 (세계 모델)"

이 연구의 핵심은 로봇에게 **'상상력'**을 심어주는 것입니다.

기존 방식 (시험과 오류): 로봇이 새로운 상황을 만나면, 실제로 부딪혀 보거나 넘어져 보며 "아, 안 되네"라고 배우는 방식입니다. 이건 사람이 실수하면서 배우는 것과 비슷하지만, 로봇이 물리적으로 부딪히면 고장 날 수도 있고 시간이 너무 오래 걸립니다.
이 연구의 방식 (상상력 훈련): 로봇에게 **"만약 내가 이렇게 움직이면, 앞으로 어떤 일이 일어날까?"**를 미리 상상하게 합니다.
- 마치 체스 선수가 실제 말을 움직이기 전에 머릿속으로 몇 수를 ahead(앞으로) 계산하는 것과 같습니다.
- 로봇은 실제 실험실 (데이터) 에서 무작위로 움직인 기록들을 보고, **"이런 상황에서는 이렇게 움직이면 넘어지지 않고 벽을 잡을 수 있겠다"**는 패턴을 머릿속 (잠재 공간) 에 저장해 둡니다.

🎯 2. 두 가지 핵심 기술: "예측"과 "나침반"

로봇이 이 상상력을 어떻게 활용하는지 두 가지 비유로 설명합니다.

A. 세계 모델 (World Model) = "미래를 보는 크리스탈 볼"

로봇은 카메라 (눈) 와 몸의 감각 (근육) 으로 현재 상황을 봅니다.
그리고 머릿속의 **'크리스탈 볼'**을 통해 4 초 뒤의 미래를 예측합니다.
- "지금 손을 뻗으면 4 초 뒤에 벽에 닿을 것이다."
- "지금 몸을 숙이면 4 초 뒤에 낮은 문턱을 통과할 것이다."
중요한 점은 로봇이 실제 픽셀 (화면) 을 예측하는 게 아니라, 상황의 핵심 (잠재 상태) 을 예측한다는 것입니다. 마치 복잡한 풍경을 다 보지 않고도 "여기는 위험하다, 저기는 안전하다"는 핵심만 간추려서 미래를 보는 것과 같습니다.

B. 가치 함수 (Value Function) = "나침반"

미래를 예측만 해서는 부족합니다. "어떤 행동을 해야 가장 잘 될까?"를 판단해야 합니다.
여기서 가치 함수가 나침반 역할을 합니다.
- 로봇이 여러 가지 행동 시나리오를 상상할 때, 나침반이 **"이 길은 점수가 높고 (안전함), 저 길은 점수가 낮아 (위험함)"**라고 알려줍니다.
- 특히 **접촉 (Contact)**이 필요한 상황에서는 보상이 희박해서 (성공할지 실패할지 알기 어려움) 이 나침반이 아주 중요합니다. 로봇이 "벽에 기대는 게 안전하겠다"라고 판단하게 해주는 나침반입니다.

🚀 3. 왜 이 방법이 특별한가요? (기존 방식과의 차이)

시뮬레이션의 비효율성: 기존에 로봇을 가르치려면 수백만 번의 가상 실험을 시켜야 했습니다. (비유: 로봇이 수백만 번 넘어져야 배움)
이 방법의 효율성: 이 연구팀은 **실제 시뮬레이션에서 무작위로 움직인 데이터 (데모 없이)**만 모아서 로봇을 훈련시켰습니다.
- 마치 유튜브에서 수많은 운동 영상을 보고, 직접 해보지 않아도 운동 요령을 터득한 사람처럼, 로봇은 적은 데이터로도 복잡한 접촉 기술을 배웠습니다.
- 한 번 학습된 모델은 벽을 잡기, 공 막기, 낮은 문 통과하기 등 여러 일을 동시에 잘해냅니다. (다재다능함)

🏃 4. 실제 실험 결과: "Unitree G1 로봇의 활약"

이론만 있는 게 아니라, 실제 **Unitree G1(인간형 로봇)**에 적용해 보았습니다.

벽 받기: 로봇이 밀려오면 넘어지지 않고 손으로 벽을 짚고 균형을 잡습니다.
공 막기: 날아오는 공을 손으로 막아냅니다.
낮은 문 통과: 머리가 닿지 않게 몸을 숙이고 낮은 아치형 문을 통과합니다.

이 모든 것을 실시간으로 카메라와 몸의 감각만으로 수행하며, 예상치 못한 상황 (예: 처음 보는 박스) 에도 잘 대처했습니다.

💡 요약: 이 연구가 우리에게 주는 메시지

이 논문은 **"로봇이 인간처럼 복잡한 환경에서 부딪히지 않고, 오히려 부딪힘을 이용해 유연하게 움직이게 하는 방법"**을 제시합니다.

과거: 로봇은 "부딪히지 마!"라고만 배웠습니다.
현재 (이 연구): 로봇은 "상황에 따라 벽을 짚거나, 공을 막거나, 몸을 숙여라"라고 **상상력 (세계 모델) 과 나침반 (가치 함수)**을 통해 스스로 판단하고 행동합니다.

이 기술은 앞으로 재난 현장, 복잡한 집안일, 혹은 위험한 환경에서 인간을 대신해 일할 진짜 똑똑한 로봇을 만드는 중요한 디딤돌이 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

논문 요약: 인간형 로봇을 위한 이고 - 비전 (Ego-Vision) 기반 세계 모델 및 접촉 계획

이 논문은 구조화되지 않은 환경에서 인간형 로봇이 충돌을 피하는 것을 넘어, 물리적 접촉 (Physical Contact) 을 적극적으로 활용하여 자율성을 높이는 새로운 프레임워크를 제안합니다. 저자들은 기존의 최적화 기반 계획법과 온-정책 강화학습 (On-policy RL) 의 한계를 극복하기 위해, 학습된 세계 모델 (World Model) 과 샘플링 기반 모델 예측 제어 (MPC) 를 결합한 방법을 개발했습니다.

1. 문제 정의 (Problem)

접촉의 복잡성: 인간형 로봇이 벽에 기대어 균형을 잡거나, 물체를 막거나, 낮은 아치 아래를 통과하는 것과 같은 '접촉 인식 (Contact-aware)' 작업은 비선형적이고 불연속적인 동역학을 가지며, 기존 최적화 기반 방법론은 모델 오차에 민감하고 실시간 계획이 어렵습니다.
강화학습의 비효율성: 기존 온-정책 RL 은 시각 입력을 처리할 때 샘플 효율성이 매우 낮고, 다중 작업 학습 (Multi-task learning) 에 어려움이 있으며, 희소한 보상 (Sparse Reward) 과 센서 노이즈로 인해 탐색이 어렵습니다.
데이터 부족: 인간형 로봇의 전체 신체 명령에 대한 시연 데이터 (Demonstration) 를 수집하는 것은 비용이 많이 들고 어렵습니다.

2. 방법론 (Methodology)

이 연구는 시연 데이터가 없는 오프라인 데이터셋으로 학습된 세계 모델과 가치 기반 (Value-Guided) 샘플링 MPC를 통합한 프레임워크를 제시합니다.

A. 데이터 수집 (Data Collection):
- 시뮬레이션 환경에서 무작위로 샘플링된 고수준 명령 (엔드 이펙터 위치, 몸체 높이) 을 사용하여 로봇을 제어하는 저수준 제어기 (Low-level controller) 를 먼저 학습합니다.
- 이 제어기를 통해 구슬, 벽, 아치 등 다양한 객체와 상호작용하는 오프라인 데이터셋을 생성하며, 어떠한 시연 데이터도 사용하지 않습니다.
B. 이고 - 비전 세계 모델 (Ego-Vision World Model):
- 잠재 공간 예측: 원시 픽셀을 직접 예측하는 대신, 압축된 잠재 공간 (Latent Space) 에서 미래 상태를 예측합니다. 이는 장기적인 예측 시 발생하는 오차 누적 (Compounding Error) 을 줄입니다.
- 구성 요소:
  - RNN 기반 동역학: 이전 상태와 행동을 기반으로 결정론적 잠재 상태 ( $h_t$ ) 를 유지합니다.
  - 인코더/디코더: 현재 관측치 (깊이 이미지 + 프로프리오셉션) 를 잠재 상태 ( $z_t$ ) 로 인코딩하고 재구성합니다.
  - 대리 가치 함수 (Surrogate Value Function): 희소한 접촉 보상을 해결하기 위해, 잠재 상태와 행동에 기반하여 **대기 가치 ( $\hat{Q}_t$ )**와 **종료 확률 ( $\hat{d}_t$ , 예: 넘어질 확률)**을 직접 예측하는 헤드를 추가합니다. 이는 계획자가 다양한 행동의 결과를 효율적으로 평가할 수 있게 합니다.
- 손실 함수: 재구성 손실, 결합 임베딩 예측 손실 (JEP), 그리고 Q-손실 (대리 가치 학습) 의 합으로 구성됩니다.
C. 가치 기반 샘플링 MPC (Value-Guided Sampling MPC):
- 학습된 세계 모델을 사용하여 현재 관측치로부터 미래 시나리오를 시뮬레이션합니다.
- 가이드 역할: 학습된 가치 함수 ( $\hat{Q}$ ) 를 최적의 오라클이 아닌 강력한 휴리스틱으로 사용하여, **크로스 엔트로피 방법 (CEM)**을 통해 최적의 행동 시퀀스를 탐색합니다.
- 재계획 (Re-planning): 짧은 계획 구간 (Horizon $N=4$ ) 을 설정하고 매 시간 단계마다 재계획하여 모델의 편향을 보정하고 환경의 변화에 실시간으로 대응합니다.

3. 주요 기여 (Key Contributions)

확장 가능한 시각 세계 모델: 시연 데이터 없이 무작위 오프라인 데이터로만 학습되어 다양한 접촉 작업의 동역학을 포착하는 시각 세계 모델을 개발했습니다.
가치 가이드를 통한 픽셀 기반 계획: 학습된 대리 가치 함수를 활용하여 샘플링 기반 MPC 를 유도함으로써, 희소한 보상을 가진 접촉 작업에서 효율적인 계획을 가능하게 했습니다.
실제 로봇에서의 민첩하고 견고한 계획: 단일 모델로 벽 지지, 물체 차단, 아치 통과 등 다양한 작업을 수행하며, 실제 Unitree G1 인간형 로봇에서 이고 - 비전 (Depth Image) 과 프로프리오셉션만으로 실시간 접촉 계획을 성공적으로 구현했습니다.

4. 실험 결과 (Results)

샘플 효율성: 오프라인 데이터 (약 0.5M 스텝) 만으로 학습된 본 방법은, 온라인 RL (PPO) 보다 훨씬 적은 데이터로 동등하거나 더 나은 성능을 달성했습니다. 특히 시각적 변화가 큰 작업 (아치 통과 등) 에서 PPO 보다 우월한 성능을 보였습니다.
다중 작업 능력: 단일 모델로 모든 작업을 동시에 학습했을 때, 개별 작업 전용 모델과 유사하거나 더 나은 성능을 보였습니다. 잠재 공간 (Latent Space) 시각화 (t-SNE) 를 통해 모델이 각 작업별 고유한 동역학과 환경을 효과적으로 분리하여 학습했음을 확인했습니다.
실제 환경 검증: Unitree G1 로봇을 사용하여 외부 충격에 대한 벽 지지, 날아오는 공/상자 차단, 낮은 아치 통과 등의 작업을 성공적으로 수행했습니다. 특히 훈련 데이터에 없던 새로운 객체 (OOD, Out-of-Distribution) 에 대해서도 일반화 능력을 보였습니다.
설계 선택의 타당성:
- 계획 구간 (Horizon): 너무 짧으면 (N=1) 근시안적이 되고, 너무 길면 (N=6) 모델 편향으로 인해 성능이 저하되었습니다. N=4가 편향 - 분산 트레이드오프에서 최적의 성능을 보였습니다.
- 목적 함수: 보상 (Reward) 만을 사용하는 것보다 학습된 가치 함수 ( $\hat{Q}$ ) 를 사용하는 것이 부분 관측성과 노이즈로 인한 불안정성을 해결하는 데 더 효과적이었습니다.

5. 의의 및 결론 (Significance)

이 논문은 인간형 로봇이 시연 데이터 없이 오프라인 데이터만으로 복잡한 물리적 접촉 작업을 학습할 수 있음을 입증했습니다. 기존의 모델 기반 제어와 강화학습의 단점을 보완하여, 시각 입력과 프로프리오셉션만으로 실시간으로 적응적이고 견고한 접촉 계획을 가능하게 함으로써, 구조화되지 않은 실제 환경에서의 로봇 자율성 향상에 중요한 기여를 했습니다. 이는 데이터 효율적이고 시각 기반의 로봇 상호작용 계획의 새로운 패러다임을 제시합니다.