DiT4DiT: Jointly Modeling Video Dynamics and Actions for Generalizable Robot Control

이 논문은 비디오 생성 과정의 중간 특징을 활용하여 비디오 생성과 행동 예측을 통합적으로 학습하는 'DiT4DiT' 모델을 제안함으로써, 기존 VLA 모델 대비 데이터 효율성과 일반화 성능을 획기적으로 개선한 로봇 제어 방식을 제시합니다.

Teli Ma, Jia Zheng, Zifan Wang, Chuili Jiang, Andy Cui, Junwei Liang, Shuo Yang

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🤖 1. 기존 로봇의 문제: "정지된 사진으로 배우는 로봇"

지금까지의 로봇 학습 모델 (VLA) 은 마치 수천 장의 '정지된 사진'과 '설명서'만 보고 배운 학생과 같습니다.

  • 장점: 사물이 무엇인지, "컵을 가져와"라는 말을 들으면 컵이 어디 있는지 아는 것은 빠릅니다.
  • 단점: 하지만 물리 법칙을 모릅니다. 컵을 잡을 때 얼마나 힘을 줘야 깨지지 않는지, 물체가 떨어질 때 어떻게 움직일지, 문이 열리면 그 뒤에 무엇이 나올지 같은 **'움직임의 흐름'**을 잘 이해하지 못합니다. 그래서 실제 로봇이 움직일 때 어색하거나 실패할 확률이 높습니다.

🎬 2. DiT4DIT의 아이디어: "미래를 상상하는 영화 감독"

이 연구팀은 로봇에게 **"미래의 영상을 만들어보는 연습"**을 시켰습니다. 마치 영화 감독이 다음 장면을 상상하듯, 로봇이 "지금 이 상태에서 1 초 뒤에는 세상이 어떻게 변할까?"를 예측하게 한 것입니다.

  • 핵심 아이디어: 로봇이 단순히 정지된 사진을 보는 게 아니라, 비디오를 만들어내는 과정을 통해 물리 법칙 (중력, 마찰, 충돌 등) 을 자연스럽게 체득하게 합니다.
  • 비유: 로봇이 "미래의 영상을 만드는 중"일 때, 그 **중간 단계의 뇌속 그림 (잠재 특징)**을 꺼내서 "자, 이제 내가 어떻게 움직여야 저 영상을 만들 수 있을까?"라고 행동 계획을 세웁니다.

🧩 3. 어떻게 작동할까? (두 개의 Diffusion Transformer)

이 시스템은 두 개의 핵심 부품으로 이루어져 있습니다.

  1. 비디오 생성기 (Video DiT): "앞으로 세상이 어떻게 변할지" 상상하며 영상을 그립니다.
  2. 행동 생성기 (Action DiT): "그 영상을 그리기 위해 로봇 팔을 어떻게 움직여야 할지" 계산합니다.

✨ 마법의 순간 (중간 단계 활용):
기존 방식은 "완성된 미래 영상"을 보고 행동을 결정했다면, DiT4DIT는 영상이 완성되기 직전의 '중간 단계'에서 정보를 얻습니다.

  • 비유: 요리사가 요리를 완성한 뒤 "어떻게 만들었지?"라고 뒤돌아보는 게 아니라, 재료를 섞고 불을 조절하는 '중간 과정'에서 맛을 보고 "아, 이제 소금을 더 넣어야겠다"라고 즉각적으로 반응하는 것과 같습니다. 이 덕분에 로봇은 더 빠르고 정확하게 움직입니다.

🚀 4. 놀라운 성과: "데이터는 적게, 성과는 크게"

이 방법은 놀라운 효율성을 보여줍니다.

  • 데이터 효율성: 기존 방식보다 10 배 이상 적은 데이터로 똑똑해집니다. (마치 책 1 권만 읽어도 다른 친구 10 권을 읽은 만큼 배우는 것)
  • 학습 속도: 학습이 7 배 더 빨라집니다.
  • 실제 성능:
    • 시뮬레이션: 책상 위 장난감 로봇이 컵을 쌓거나 서랍을 여는 작업에서 **98.6%**의 성공률을 기록했습니다. (기존 최고 기록을 갈아치움)
    • 실제 로봇 (Unitree G1): 실제 인간형 로봇에서도 꽃을 꽂거나 컵을 쌓는 정교한 작업을 성공했습니다. 특히 보지 못한 새로운 사물이나 다른 상황에서도 잘 적응하는 '제로샷 (Zero-shot)' 능력을 보여줬습니다.

💡 5. 결론: 왜 이것이 중요한가?

이 연구는 **"로봇을 가르칠 때, 정지된 사진보다 '움직이는 영상'을 예측하게 하는 것이 훨씬 더 효과적이다"**라는 것을 증명했습니다.

마치 운전 면허를 딸 때, 정지된 도로 사진만 보는 것보다 실제 운전 시뮬레이션을 통해 차가 어떻게 움직이는지 경험하는 것이 더 안전하고 빠른 학습이 되는 것과 같습니다. DiT4DIT는 로봇이 물리 세계의 흐름을 이해하게 함으로써, 더 안전하고 똑똑한 로봇 시대를 앞당겼습니다.

한 줄 요약:

"로봇에게 '미래 영상을 상상하는 능력'을 가르쳐주니, 물리 법칙을 자연스럽게 깨우쳐서 훨씬 똑똑하고 빠르게 움직이게 되었습니다!"