World2Act: Latent Action Post-Training via Skill-Compositional World Models

이 논문은 픽셀 의존성을 줄이고 가변적인 작업 길이에 대응하기 위해 잠재 공간 정렬과 LLM 기반 기술 분해 파이프라인을 도입한 'World2Act' 프레임워크를 제안하여, 시각 - 언어 - 행동 정책의 일반화 성능을 획기적으로 향상시켰음을 보여줍니다.

An Dinh Vuong, Tuan Van Vo, Abdullah Sohail, Haoran Ding, Liang Ma, Xiaodan Liang, Anqing Duan, Ivan Laptev, Ian Reid

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🤖 로봇이 '상상력'을 배워 현실을 정복하다: '월드투액트 (World2Act)' 설명

이 논문은 로봇이 **"눈으로 보는 것 (픽셀)"**보다 **"상황을 이해하는 느낌 (잠재적 동역학)"**을 통해 더 똑똑하게 행동하도록 가르치는 새로운 방법을 소개합니다.

마치 로봇에게 **"실제 사진"**을 보여주기보다 **"어떻게 움직여야 할지 상상하는 능력"**을 심어주는 것과 같습니다.


1. 문제점: 로봇은 '나쁜 사진'에 속아 넘어갑니다 📸🤡

기존의 로봇 학습 방식은 다음과 같은 문제를 겪고 있었습니다.

  • 상황: 로봇을 훈련시킬 때, AI 가 만든 '가상 시뮬레이션 (World Model)'에서 로봇이 물건을 집는 영상을 만들어주고, 그 영상을 보고 로봇이 따라하게 했습니다.
  • 문제: 그런데 이 가상 영상은 완벽하지 않습니다. 마치 AI 가 그린 그림처럼 손가락이 두 개로 나뉘거나, 컵이 공중에 떠다니는 등 '환각 (Hallucination)' 현상이 생깁니다.
  • 결과: 로봇은 이 **잘못된 그림 (픽셀)**을 보고 "아, 컵이 이렇게 떠다니는구나!"라고 착각하며 엉뚱한 행동을 합니다. 즉, 이미지의 결함에 너무 민감한 것입니다.

비유: 요리사를 가르칠 때, 요리사가 불을 잘못 켜서 음식이 타는 실수한 사진을 보여주고 "이렇게 하세요"라고 가르치는 것과 같습니다. 요리사는 타는 냄새와 검은 연기 (노이즈) 에만 집중해서 진짜 요리를 망쳐버립니다.


2. 해결책: '월드투액트 (World2Act)'의 두 가지 혁신 🚀

이 논문은 두 가지 핵심 아이디어로 이 문제를 해결했습니다.

① "상상력"을 공유하라 (잠재 공간 정렬) 🧠✨

기존 방식은 로봇에게 완벽한 영상을 보여주려 했지만, 이 방법은 **영상의 '핵심 느낌 (Latent)'**만 공유합니다.

  • 방식: 가상 시뮬레이션이 만들어낸 불완전한 영상을 그대로 보는 대신, 그 영상이 가진 **'움직임의 흐름'**과 로봇이 내리는 **결정 (행동)**을 서로 연결합니다.
  • 비유: 요리사가 타는 연기 (픽셀 노이즈) 를 보지 않고, **"냄새와 맛의 흐름 (동역학)"**만 배우는 것입니다. "음식이 익으면 이런 냄새가 나고, 이렇게 뒤집어야 해"라는 본질적인 원리만 전달받으니, 그림이 조금 흐릿해도 요리 실력은 향상됩니다.

② "작은 블록"으로 쌓아 올리라 (기술 분해) 🧱

로봇이 긴 작업을 할 때, 한 번에 모든 영상을 만들어내면 오류가 쌓여서 망칩니다.

  • 방식: 복잡한 작업 (예: 커피 내리기) 을 **작은 블록 (스킬)**으로 쪼갭니다. "그릇 가져오기" → "커피 담기" → "테이블에 놓기"처럼요.
  • LLM 의 역할: 인공지능 (LLM) 이 로봇의 긴 작업 기록을 분석해, 자연스러운 작은 단계들로 나누어줍니다.
  • 비유: 긴 영화를 한 번에 다 찍으려다 실패하는 대신, 장면별로 (클립별로) 찍어서 나중에 이어붙이는 방식입니다. 각 장면이 짧고 명확하니 오류가 쌓이지 않습니다.

3. 실제 성과: 시뮬레이션과 현실 모두에서 성공 🏆

이 방법을 적용한 결과, 로봇은 다음과 같은 변화를 보였습니다.

  • 더 똑똑해짐: 기존 최고의 로봇 모델들보다 성공률이 6.7% 이상 향상되었습니다.
  • 실제 로봇에서도 작동: 컴퓨터 속 시뮬레이션뿐만 아니라, 실제 로봇 팔에서도 컵을 옮기고 서랍을 닫는 등의 작업을 훨씬 잘 수행했습니다.
  • 오류에 강함: 가상 영상에 작은 결함 (컵 손잡이가 사라지는 등) 이 있어도, 로봇은 움직임의 흐름만 따라했기에 작업을 성공적으로 완료했습니다.

🌟 한 줄 요약

"로봇에게 완벽한 영상을 보여주기보다, '움직임의 원리'를 공유하고 복잡한 일을 작은 블록으로 나누어 가르쳐주니, 로봇은 더 이상 AI 가 그린 나쁜 그림에 속지 않고 현실에서 똑똑하게 일하게 되었습니다!"

이 기술은 로봇이 새로운 환경에서도 유연하게 적응할 수 있는 **일반적인 지능 (Generalization)**을 키우는 중요한 발걸음입니다.