World Action Models are Zero-shot Policies

이 논문은 사전 훈련된 비디오 확산 모델을 기반으로 한 'DreamZero'라는 월드 액션 모델 (WAM) 을 제안하여, 기존 비전 - 언어 - 행동 (VLA) 모델보다 2 배 이상 뛰어난 일반화 성능과 다양한 로봇 및 인간 데이터만으로도 새로운 환경과 에이전트에 대한 제로샷 및 퓨샷 적응 능력을 실현함을 보여줍니다.

Seonghyeon Ye, Yunhao Ge, Kaiyuan Zheng, Shenyuan Gao, Sihyun Yu, George Kurian, Suneel Indupuru, You Liang Tan, Chuning Zhu, Jiannan Xiang, Ayaan Malik, Kyungmin Lee, William Liang, Nadun Ranawaka, Jiasheng Gu, Yinzhen Xu, Guanzhi Wang, Fengyuan Hu, Avnish Narayan, Johan Bjorck, Jing Wang, Gwanghyun Kim, Dantong Niu, Ruijie Zheng, Yuqi Xie, Jimmy Wu, Qi Wang, Ryan Julian, Danfei Xu, Yilun Du, Yevgen Chebotar, Scott Reed, Jan Kautz, Yuke Zhu, Linxi "Jim" Fan, Joel Jang

게시일 2026-02-19
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 기존 로봇의 문제: "악보만 보고 연주하는 피아니스트"

기존의 최첨단 로봇 (VLA 모델) 은 마치 악보만 보고 연주하는 피아니스트와 비슷했습니다.

  • 장점: "코카콜라 캔을 테일러 스위프트에게 줘"라고 말하면, 테일러 스위프트가 누구인지, 캔이 어디 있는지 언어적 지식으로 잘 알아냅니다.
  • 단점: 하지만 **"신발 끈을 풀어줘"**나 "에스프레소 머신 레버를 누르" 같은 새로운 동작을 시키면 망칩니다. 왜냐하면 이 로봇들은 오직 **반복된 연습 (데모)**을 통해 동작을 외웠기 때문입니다. 악보 (언어) 는 알지만, 실제 손가락을 어떻게 움직여야 하는지 (물리 법칙) 에 대한 직감이 부족해서, 처음 보는 상황에서는 어색하게 움직이거나 아예 멈춰버립니다.

2. 드림제로의 혁신: "무용수를 보며 춤을 추는 배우"

드림제로는 이 문제를 해결하기 위해 비디오 생성 AI(영화 제작자) 기술을 로봇에 접목했습니다.

  • 핵심 아이디어: 로봇에게 "손을 움직여"라고 직접 가르치는 대신, **"앞으로 무슨 일이 일어날지 상상해 (꿈을 꿔)"**라고 가르칩니다.
  • 작동 원리:
    1. 로봇은 명령을 받으면, **"내가 이렇게 움직이면 내 눈앞의 풍경이 어떻게 변할까?"**를 먼저 상상합니다 (비디오 생성).
    2. 그 상상한 미래 장면 (비디오) 을 바탕으로, **"그렇게 되려면 지금 손을 어떻게 움직여야 하지?"**라고 역으로 계산합니다 (동작 생성).

비유하자면:
기존 로봇은 악보만 보고 연주하려다 막히지만, 드림제로는 무용수의 춤 영상을 보고 "저 사람이 저렇게 춤추려면 발을 어떻게 움직였을까?"를 추론하며 춤을 춥니다. 그래서 새로운 춤 (작업) 을 처음 봐도 자연스럽게 따라 할 수 있습니다.

3. 드림제로가 가진 3 가지 초능력

① 다양한 경험에서 배우는 능력 (다양한 데이터)

기존 로봇은 같은 동작을 100 번 반복해서 배웠지만, 드림제로는 다양하고 엉뚱한 상황 100 가지를 한 번씩 경험해도 잘 배웁니다.

  • 비유: 같은 요리를 100 번 반복해서 배우는 요리사 vs 다양한 재료로 100 가지 다른 요리를 한 번씩 해본 요리사. 드림제로는 후자처럼, 낯선 상황에서도 "아, 이 재료면 이렇게 처리해야겠구나!"라고 유추할 수 있습니다.

② 다른 로봇이나 사람도 따라 하는 능력 (크로스-엠픔디먼트)

드림제로는 자신이 직접 해본 적이 없는 로봇이나 사람의 영상만 봐도 그 로봇이 될 수 있습니다.

  • 비유: 내가 직접 피아노를 치지 않아도, 다른 피아니스트가 연주하는 영상만 10 분 정도 보면, 내가 피아노를 칠 때 그 손가락 움직임을 흉내 낼 수 있는 능력입니다.
  • 결과: 다른 로봇 (YAM) 이나 사람의 영상 10~20 분만 학습하면, 새로운 로봇이 낯선 작업을 42% 더 잘하게 됩니다. 심지어 30 분짜리 '놀이' 데이터만으로도 완전히 다른 로봇으로 변신할 수 있습니다.

③ 실시간으로 빠르게 반응 (7Hz)

비디오를 만들고 동작을 계산하는 건 보통 느립니다. 하지만 연구팀은 마법 같은 최적화 기술을 써서, 드림제로가 초당 7 번 (7Hz) 의 속도로 생각과 행동을 할 수 있게 만들었습니다.

  • 비유: 영화 한 장을 그리는 데 5 초 걸리던 것을, 0.15 초 만에 그려내면서 로봇이 멈추지 않고 자연스럽게 움직이게 만든 것입니다.

4. 왜 이것이 중요한가요?

이 기술은 로봇이 **"특정 작업만 하는 기계"**에서 **"어떤 상황에서도 적응하는 똑똑한 파트너"**로 변하는 첫걸음입니다.

  • 기존: "이 상자를 들어"라고 하면 들어주지만, "상자를 열어"라고 하면 어리둥절해합니다.
  • 드림제로: "상자를 열어"라고 하면, 상자가 어떻게 생겼고 열리면 안이 어떻게 보일지 **상상 (꿈)**을 먼저 그려낸 뒤, 그 상상에 맞춰 상자를 여는 행동을 실행합니다.

5. 결론: 로봇이 '꿈'을 꿉니다

드림제로는 로봇에게 물리 법칙과 미래의 변화를 시각적으로 상상하는 능력을 심어주었습니다. 마치 우리가 새로운 일을 할 때 머릿속으로 시뮬레이션을 돌려보는 것처럼, 로봇도 비디오를 만들어보며 행동을 계획합니다.

이제 로봇은 더 이상 반복 훈련에 의존하지 않아도 됩니다. 다양한 세상 (인터넷의 수많은 영상) 을 보고 배운 경험을 바탕으로, 우리가 상상하지 못한 새로운 일들도 척척 해낼 수 있는 시대가 온 것입니다.

한 줄 요약: 드림제로는 로봇에게 "무엇을 해야 하는지"가 아니라, "그렇게 하면 세상이 어떻게 변할지"를 상상하게 함으로써, 낯선 상황에서도 스스로 해결책을 찾아내는 지능을 선물했습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →