Chain of World: World Model Thinking in Latent Motion

이 논문은 비디오 VAE 를 통해 구조와 운동을 분리하고, 세계 모델의 시간적 추론 능력과 잠재 행동의 컴팩트함을 통합한 새로운 'CoWVLA(Chain-of-World VLA)' 패러다임을 제안하여 로봇 시뮬레이션 벤치마크에서 기존 방법들을 능가하는 성능을 입증했습니다.

Fuxiang Yang, Donglin Di, Lulu Tang, Xuancheng Zhang, Lei Fan, Hao Li, Chen Wei, Tonghua Su, Baorui Ma

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🤖 기존 로봇의 두 가지 문제점

지금까지 로봇을 가르치는 방법은 크게 두 가지였는데, 둘 다 약점이 있었습니다.

  1. 방법 A: "미래의 모든 장면을 그림으로 그리기" (World Model)

    • 비유: 로봇에게 "컵을 들어"라고 하면, 로봇이 다음 1초, 2초, 3초 뒤의 모든 장면을 픽셀 단위로 하나하나 그림으로 그려냅니다.
    • 문제점: 배경의 책상, 벽, 조명 같은 쓸데없는 정적인 부분까지 다 그려야 하므로 계산이 너무 느리고 비효율적입니다. 마치 "컵을 들어"라는 명령을 내리기 위해 "벽의 색이 어떻게 변할지"까지 계산하는 꼴입니다.
  2. 방법 B: "순간순간의 움직임만 기억하기" (Latent Action)

    • 비유: 로봇이 "손을 위로 올린다"는 움직임 자체만 기억합니다.
    • 문제점: "어디로 움직여야 할지", "그 과정에서 컵이 어떻게 흔들릴지" 같은 **전체적인 상황 이해 (세상 지식)**가 부족합니다. 마치 악보의 한 마디만 보고 전체 곡을 연주하려는 것과 비슷합니다.

✨ CoWVLA 의 혁신: "세상의 흐름을 추상화하다"

이 논문은 이 두 방법의 장점을 합쳐 세 번째 방법을 제안합니다. 바로 **"세상의 흐름 (Chain of World)"**을 추상적인 '움직임의 실'로 연결하는 것입니다.

1. "무대"와 "배우"를 분리하다 (Structure vs. Motion)

기존 방식은 무대 (배경) 와 배우 (로봇) 가 섞인 전체 영상을 다 기억하려 했습니다. 하지만 CoWVLA 는 이 둘을 완벽하게 분리합니다.

  • 구조 (Structure): 배경, 책상, 벽 등 움직이지 않는 것은 한 번만 기억합니다.
  • 움직임 (Motion): 로봇 팔이 어떻게 움직이는지, 컵이 어떻게 이동하는지 움직임의 궤적만 따로 추출합니다.

비유: 영화를 볼 때, 배경은 고정된 무대 세트이고 배우만 움직인다고 상상해보세요. CoWVLA 는 배우의 동작만 따로 녹화해서 기억합니다. 그래서 훨씬 가볍고 빠릅니다.

2. "미래를 상상하는 추상적인 지도" 그리기

로봇은 명령을 받으면, 실제 영상을 그리는 대신 "이제부터 어떻게 움직일지"에 대한 **추상적인 지도 (잠재 운동 체인)**를 그립니다.

  • 비유: 길 찾기를 할 때, 지도 전체를 다 외울 필요 없이 **"A 지점에서 B 지점으로 가는 핵심 경로"**만 기억하는 것과 같습니다.
  • 이 지도를 통해 로봇은 **"다음에 어떤 일이 일어날지"**를 추론합니다. "컵을 들면 물이 쏟아질 수 있으니 조심해야지"라는 상식까지 함께 학습하게 됩니다.

3. "핵심 장면"만 보고 결정하기

로봇은 매순간 모든 프레임을 보지 않아도 됩니다. 중요한 순간 (키 프레임) 몇 개만 보고, 그 사이를 채우는 **흐름 (Motion Chain)**을 스스로 상상하며 움직입니다.

  • 비유: 만화책을 볼 때, 모든 장면을 다 그리지 않고 핵심 장면 (Keyframe) 만 그리고, 그 사이의 동작은 독상이 상상하게 만드는 것과 같습니다.

🚀 왜 이것이 중요한가요?

이 방법을 사용하면 로봇은 다음과 같은 변화를 겪습니다:

  • 더 똑똑해집니다: 단순히 움직이는 법만 배우는 게 아니라, 물체가 어떻게 움직이고 상호작용하는지 **세상의 이치 (물리 법칙)**를 이해합니다.
  • 더 빠릅니다: 쓸데없는 배경을 다시 그리는 시간을 아껴서, 실제 행동에 집중할 수 있습니다.
  • 더 유연합니다: 새로운 환경에서도 "이건 컵이니까 넘어지면 깨지겠지"라는 상식을 적용해 대처할 수 있습니다.

📝 한 줄 요약

"로봇에게 모든 장면을 그림으로 그리게 하지 말고, '세상의 흐름'을 추상적인 지도로 그려서 미래를 상상하며 움직이게 하라."

이 기술은 로봇이 인간처럼 세상을 이해하고, 더 빠르고 똑똑하게 일할 수 있는 새로운 지평을 열었습니다.