MWM: Mobile World Models for Action-Conditioned Consistent Prediction

Each language version is independently generated for its own context, not a direct translation.

🌟 핵심 비유: "로봇의 마음속 시뮬레이션 게임"

로봇이 새로운 곳에 갔을 때, "어디로 가야 할까?"라고 고민한다고 상상해 보세요. 기존 로봇들은 실제 발걸음을 옮기면서 길을 찾거나, 단순히 "앞으로 가라"는 명령만 따르는 경우가 많았습니다.

하지만 이 연구의 MWM은 로봇에게 **"마음속 시뮬레이션 게임"**을 하도록 가르쳤습니다.

"내가 앞으로 10 걸음 걷고, 왼쪽으로 꺾으면 내 눈앞에 어떤 풍경이 펼쳐질까?"

이렇게 **미래를 미리 상상 (예측)**해보고, 그 상상 속 경로가 목표 (예: 창문, 책장) 에 가장 잘 맞는지 비교한 뒤, 가장 좋은 길을 선택해서 실제로 움직이는 방식입니다.

🚧 기존 기술의 문제점: "상상이 현실과 달라요"

기존의 기술은 두 가지 큰 문제가 있었습니다.

상상과 현실의 괴리 (Consistency 문제):
- 로봇이 "왼쪽으로 10 걸음"을 상상했을 때, 화면은 예쁘게 그려져도 실제 로봇이 그걸 실행하면 엉뚱한 곳에 도착하거나 벽에 부딪히곤 했습니다.
- 비유: 마치 지도 앱이 "10 분만 가면 도착해요"라고 말해주는데, 실제로는 1 시간 걸려서 엉뚱한 산으로 올라가는 경우입니다. 상상한 경로와 실제 행동이 맞지 않으면, 로봇은 길을 잃게 됩니다.
느린 계산 (Speed 문제):
- 미래를 정확히 상상하려면 컴퓨터가 엄청난 계산을 해야 해서, 로봇이 움직이는 속도가 너무 느렸습니다. 실시간으로 반응하기엔 너무 무거웠죠.

✨ MWM 의 해결책: "2 단계 훈련과 '일관성' 유지"

이 연구팀은 로봇의 상상력을 더 똑똑하고 빠르게 만들기 위해 두 가지 핵심 기술을 도입했습니다.

1. "구조 학습"과 "일관성 훈련" (두 단계 훈련)

로봇을 가르치는 과정을 두 단계로 나누었습니다.

1 단계 (구조 학습): 먼저 로봇에게 세상의 기본 구조 (벽, 바닥, 조명) 를 정확하게 보여줍니다. 마치 건축가가 건물의 뼈대를 먼저 세우는 것과 같습니다.
2 단계 (일관성 훈련 - ACC): 이제 로봇에게 "내가 상상한 대로 움직였을 때, 실제로 어떤 풍경이 나올까?"를 반복해서 훈련시킵니다.
- 핵심: 로봇이 "왼쪽으로 가자"고 상상하면, 그 다음 프레임이 실제로 왼쪽으로 이동한 모습과 정확히 일치하도록 훈련합니다.
- 비유: 연습 경기에서 실수를 바로잡는 과정입니다. "내가 이렇게 상상했는데, 실제 경기 (현실) 와 다르잖아? 다시 수정해!"라고 가르쳐서, 상상과 현실의 괴리를 없앱니다.

2. "빠른 상상력" (ICSD 기술)

기존에는 미래를 상상하려면 100 번 이상의 계산을 해야 했지만, MWM 은 5 번의 계산으로도 똑똑한 상상을 가능하게 했습니다.
비유: 고급 요리사가 복잡한 레시피를 100 단계로 나누지 않고, 핵심 단계만 남긴 5 단계 레시피로 똑같은 맛을 내는 것과 같습니다.
이를 통해 로봇이 실시간으로 빠르게 길을 찾을 수 있게 되었습니다.

🏆 실제 성과: "실제 로봇이 길을 찾다"

연구팀은 이 기술을 실제 로봇 (MMK2) 에 적용하여 실험했습니다.

정확도 향상: 로봇이 목표 (책장, 창문 등) 에 도달하는 성공률이 50% 이상 늘어났습니다.
오류 감소: 길을 찾다가 헤매는 거리 (Navigation Error) 가 30% 이상 줄어들었습니다.
속도: 상상하는 속도가 기존보다 4 배 이상 빨라졌습니다.

💡 결론: 왜 이 연구가 중요할까요?

이 연구는 로봇이 단순히 명령을 따르는 기계가 아니라, **자신의 행동을 미리 상상하고 그 결과를 예측하여 최선의 선택을 하는 '똑똑한 여행자'**가 될 수 있음을 보여줍니다.

기존: "앞으로 가라" → (벽에 부딪힘) → "아, 잘못했네" (후회)
MWM: "앞으로 가면 벽에 부딪힐 것 같아. 대신 오른쪽으로 가자." → (성공) → "내 상상이 맞았어!"

이처럼 상상 (예측) 과 현실 (행동) 을 완벽하게 일치시킨 기술은 앞으로 로봇이 복잡한 집안일이나 재난 구조 같은 어려운 임무에서도 스스로 판단하고 움직이는 데 큰 도움이 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

로봇 내비게이션을 위한 '월드 모델 (World Model)'은 미래의 관측 공간을 상상하여 계획을 수립할 수 있게 해주는 유망한 프레임워크입니다. 그러나 기존 방법론들은 다음과 같은 두 가지 주요 한계를 가지고 있습니다.

액션 조건부 일관성 (Action-Conditioned Consistency) 부재:
- 기존 모델들은 프레임 단위로 시각적으로 그럴듯한 (visually plausible) 미래 영상을 생성할 수 있지만, 실제 로봇이 동일한 액션 시퀀스를 수행했을 때의 궤적과 예측된 궤적 사이에 큰 불일치가 발생합니다.
- 이러한 불일치는 모델 예측적 제어 (MPC) 와 같은 계획 알고리즘에서 치명적입니다. MPC 는 상상된 궤적을 기반으로 최적의 액션을 선택하는데, 예측이 실제 실행 결과와 어긋나면 로봇은 잘못된 행동을 수행하게 됩니다.
추론 효율성과 훈련 - 추론 불일치 (Training-Inference Mismatch):
- 실시간 로봇 제어에는 빠른 추론이 필수적이므로, 확산 모델 (Diffusion Model) 의 단계 수를 줄이는 '디스틸레이션 (Distillation)'이 필요합니다.
- 기존 디스틸레이션 방법은 개별 프레임의 분포 일치에 초점을 맞추어, 다단계 롤아웃 (rollout) 시 필요한 '액션 조건부 일관성'을 명시적으로 보존하지 못합니다. 이로 인해 훈련 시와 추론 시의 불일치가 심화되어 계획의 신뢰성이 떨어집니다.

2. 제안 방법론 (Methodology)

저자들은 MWM (Mobile World Model) 을 제안하며, 시각적 계획의 일관성을 향상시키기 위해 2 단계 학습 파이프라인과 새로운 디스틸레이션 기법을 도입했습니다.

A. 2 단계 학습 파이프라인 (Two-Stage Training Pipeline)

1 단계: 구조 사전 학습 (Structure Pretraining)
- 목적: 새로운 환경의 미세한 기하학적 구조와 조명에 의존적인 외관을 학습하여 강력한 초기화 (Initialization) 를 제공합니다.
- 방식: 기존 'Teacher-forcing' 방식 (Ground Truth 이전 프레임을 조건으로 사용) 으로 확산 모델을 학습합니다. CDiT (Conditional Diffusion Transformer) 백본을 사용하여 고충실도 (High-fidelity) 장면 역학을 학습합니다.
2 단계: 액션 조건부 일관성 (ACC) 후학습 (Post-training)
- 목적: 모델이 스스로 생성한 예측을 컨텍스트로 사용하는 환경 (Self-conditioned rollout) 에서 오류 누적을 줄이고, 예측과 실제 관측 간의 정렬을 개선합니다.
- 방식:
  - Self-Forcing: 모델이 생성한 이전 프레임을 다음 예측의 조건으로 사용하여 훈련합니다.
  - 손실 함수: 픽셀 단위 손실 대신, LPIPS 기반의 다중 프레임 지각적 손실 (Multi-frame Perceptual Loss) 을 사용하여 지각적 일관성을 강화합니다.
  - 파라미터 최적화: 고충실도 구조를 유지하기 위해 CDiT 백본은 고정 (Freeze) 하고, 액션 조건을 주입하는 경량 AdaLN (Adaptive Layer Normalization) 레이어만 미세 조정합니다.

B. 추론 일관 상태 증류 (Inference-Consistent State Distillation, ICSD)

문제: 확산 모델의 추론 속도를 높이기 위해 디노이징 단계를 줄이면 (Truncation), 중간 단계에서 생성된 상태는 과도하게 흐릿하거나 (over-smoothed) 실제 추론 시의 최종 결과와 불일치합니다.
해결:
- 추론 일관 상태 (Inference-Consistent State, $s^{IC}$ ): 훈련 시 truncated(절단된) 상태를 추론 시의 최종 상태와 정렬시키기 위해 도입된 개념입니다.
- DDIM 업데이트: 결정론적인 DDIM 업데이트를 사용하여 훈련 중의 중간 상태와 추론 시의 상태를 일치시킵니다.
- 효과: 훈련과 추론 간의 불일치를 줄여, 적은 단계 (Few-step) 의 확산 추론에서도 높은 일관성을 유지하며 계획의 신뢰성을 높입니다.

C. 계획 (Planning)

생성된 월드 모델 공간에서 CEM (Cross-Entropy Method) 을 사용하여 액션 시퀀스를 최적화합니다.
목표 이미지와 예측된 최종 프레임 간의 LPIPS 거리를 최소화하는 방향으로 경로를 선택합니다.

3. 주요 기여 (Key Contributions)

구조 사전 학습 + ACC 후학습 파이프라인: 고충실도 시각 생성 능력을 유지하면서, 자기 조건부 (Self-conditioned) 롤아웃 컨텍스트에서 오류 누적을 줄이는 2 단계 학습 전략을 제안했습니다.
ICSD (Inference-Consistent State Distillation): 훈련 시의 truncated 상태와 추론 시의 상태를 정렬하여, 적은 단계의 확산 추론에서도 액션 조건부 일관성을 보존하는 새로운 증류 기법을 개발했습니다.
종합적 평가: 벤치마크 및 실제 로봇 환경에서의 실험을 통해 시각적 충실도, 궤적 정확도, 계획 성공률, 추론 효율성 모두에서 기존 방법 (NWM 등) 을 능가하는 성능을 입증했습니다.

4. 실험 결과 (Results)

A. 벤치마크 평가 (SCAND 데이터셋)

일관성 (ACC): MWM 은 NWM 대비 DreamSim 을 20.4%, FID 를 17.5% 개선했습니다. 특히 디노이징 단계를 250 에서 5 로 줄인 빠른 추론 (DDIM 5) 환경에서도 기존 모델의 느린 추론 (DDIM 25) 보다 우수한 성능을 보였습니다.
궤적 정확도: ATE(Absolute Trajectory Error) 는 10.9%, RPE(Relative Pose Error) 는 8.5% 개선되었습니다.
추론 효율성: 최소 4 배 이상의 추론 속도 향상을 달성했습니다.

B. 실제 로봇 평가 (Real-World Deployment)

환경: AIRBOT MMK2 모바일 매니퓰레이션 플랫폼을 사용하여 실내 환경 (캐비닛, 창문, 기둥, 복도) 에서 목표 이미지 기반 내비게이션을 수행했습니다.
성능:
- 성공률 (Success Rate): 기존 방법 대비 50% 상대적 개선 (NoMaD 8% → NWM 20% → MWM 30%).
- 내비게이션 오차 (Navigation Error): 32.1% 감소.
시각적 결과: MWM 은 실제 로봇의 관측과 더 잘 정렬된 롤아웃을 생성하여, 다단계 예측 시의 오류 누적을 현저히 줄였습니다.

5. 의의 및 결론 (Significance)

이 논문은 내비게이션을 위한 월드 모델의 핵심 과제인 '시각적 사실성'과 '액션 조건부 일관성' 사이의 간극을 해소했습니다.

기술적 의의: 단순한 분포 일치 (Distribution-level alignment) 를 넘어, 계획에 필수적인 '롤아웃 일관성 (Rollout Consistency)'을 보존하는 디스틸레이션 기법을 제안했습니다.
실용적 의의: 적은 단계의 추론으로도 실시간 로봇 제어에 적용 가능한 속도와 정확도를 동시에 달성하여, 실제 환경에서의 목표 기반 내비게이션 성공률을 크게 향상시켰습니다.
향후 과제: 현재는 오픈 루프 (Open-loop) 방식이지만, 향후 동적 환경에서의 실시간 폐쇄 루프 (Closed-loop) 재계획 (Replanning) 으로 확장할 것을 목표로 합니다.

요약하자면, MWM 은 구조 학습과 일관성 증류를 결합하여, 로봇이 상상한 미래가 실제 실행 결과와 얼마나 일치하는지를 극대화함으로써, 신뢰할 수 있는 자율 내비게이션을 가능하게 한 획기적인 연구입니다.