GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning

이 논문은 웹 규모의 비디오로 사전 학습된 세계 모델을 기반으로 한 강화학습 기법인 RAMP 를 도입하여, 복잡한 장기 작업 수행 능력과 과제 간 적응력을 크게 향상시킨 새로운 비전 - 언어 - 행동 (VLA) 모델 'GigaBrain-0.5M*'을 제안하고 그 유효성을 실증합니다.

GigaBrain Team, Boyuan Wang, Bohan Li, Chaojun Ni, Guan Huang, Guosheng Zhao, Hao Li, Jie Li, Jindi Lv, Jingyu Liu, Lv Feng, Mingming Yu, Peng Li, Qiuping Deng, Tianze Liu, Xinyu Zhou, Xinze Chen, Xiaofeng Wang, Yang Wang, Yifan Li, Yifei Nie, Yilong Li, Yukun Zhou, Yun Ye, Zhichao Liu, Zheng Zhu

게시일 2026-02-27
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🤖 "거대두뇌 (GigaBrain)"가 세상을 어떻게 배웠나요?

세계 모델 기반 강화학습을 통해 로봇이 스스로 성장하는 이야기

이 논문은 로봇이 단순히 "보이는 대로" 행동하는 것을 넘어, "앞으로 일어날 일을 상상하며" 스스로를 훈련시키는 새로운 방법을 소개합니다. 마치 어린아이가 장난감을 가지고 놀면서 "이렇게 하면 넘어질 거야"라고 미리 상상하고 조심하는 것과 비슷합니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 기존 로봇의 문제: "눈앞의 것만 보는 단거리 선수"

기존의 최신 로봇 (VLA 모델) 은 마치 매우 똑똑하지만 '미래'를 상상하지 못하는 운전사와 같습니다.

  • 상황: "커피를 만들어줘"라는 명령을 받으면, 로봇은 현재 보이는 커피포트와 컵만 보고 즉시 행동을 시작합니다.
  • 문제: 만약 커피포트가 미끄러지거나, 컵이 깨질 것 같은 상황을 미리 예측하지 못하면, 로봇은 실수를 하고 멈춰버립니다. 즉, **지금 당장 보이는 것만 보고 반응 (Reactive)**하는 데 그칩니다.

2. 새로운 해결책: "미래를 보는 예지몽을 가진 로봇"

연구팀은 로봇에게 **'세계 모델 (World Model)'**이라는 특별한 능력을 심어주었습니다.

  • 비유: 이는 로봇에게 **"예지몽"**을 꾸게 해주는 것과 같습니다. 로봇은 행동을 실행하기 전에, "내가 이 컵을 잡으면 3 초 뒤에는 이렇게 될 거야"라고 미래의 시나리오를 머릿속으로 시뮬레이션합니다.
  • 효과: 로봇은 "아, 이렇게 하면 컵이 깨지겠구나"라고 미리 알아채고, 더 안전한 방법을 선택할 수 있게 됩니다.

3. GigaBrain-0.5M*: "스스로 배우는 4 단계 훈련 과정"

이 로봇은 단순히 책 (데이터) 만 읽는 게 아니라, 스스로 연습하고 실수하며 성장합니다. 이를 RAMP라는 4 단계 훈련 프로그램으로 진행합니다.

1 단계: 세계 모델 훈련 (예지몽 배우기)

  • 로봇은 1 만 시간 이상의 실제 로봇 조작 데이터를 보고, "어떤 행동이 성공으로 이어질지"와 "앞으로 세상이 어떻게 변할지"를 예측하는 법을 배웁니다.
  • 비유: 마치 체스 선수가 수만 번의 대국 기록을 보고, "이 수를 두면 5 수 뒤에는 내가 이길 확률이 높다"는 패턴을 익히는 것과 같습니다.

2 단계: 예지몽을 활용한 정책 훈련 (상상력 활용)

  • 이제 로봇은 실제 행동을 할 때, 예지몽 (미래 상태 예측) 을 참고합니다.
  • 비유: 운전할 때 "앞차이가 갑자기 멈추면 내가 어떻게 해야 하지?"라고 상상하며 핸들을 잡는 것과 같습니다.

3 단계: 인간과 함께하는 실전 연습 (HILR)

  • 로봇이 실제 환경 (주방, 세탁실 등) 에서 일을 해보지만, 인간이 옆에서 지켜보다가 위험한 순간에 **개입 (Intervention)**합니다.
  • 비유: 운전 면허 시험에서 조수석에 앉은 강사가 "아직 안 돼! 브레이크를 밟아!"라고 말해주는 상황입니다. 로봇은 이 교정을 통해 "아, 내가 실수할 뻔했구나"라고 배웁니다.

4 단계: 반복 훈련 (스스로 성장)

  • 로봇이 실전 연습을 통해 얻은 데이터 (성공한 경험 + 인간의 교정) 를 다시 학습에 사용합니다.
  • 비유: 로봇이 실수를 고치고 더 똑똑해지면, 다시 더 어려운 일을 해보고 또 배우는 선순환이 만들어집니다.

4. 놀라운 성과: "복잡한 일도 척척"

이 방법을 적용한 GigaBrain-0.5M*은 기존 로봇보다 훨씬 뛰어난 능력을 보여줍니다.

  • 세탁기 옷 개기: 옷이 꼬이거나 떨어질까 봐 미리 예측하며 부드럽게 개었습니다.
  • 박스 포장: 물건을 넣을 때 공간과 균형을 미리 계산해 완벽하게 채웠습니다.
  • 에스프레소 만들기: 커피 가루를 다지고 추출하는 복잡한 과정을 멈춤 없이 성공적으로 수행했습니다.

기존 방법 (RECAP 등) 보다 약 30% 이상 더 높은 성공률을 기록했으며, 특히 오래 걸리는 복잡한 작업에서 실수가 거의 없었습니다.

5. 결론: 로봇의 "상상력"이 미래를 바꿉니다

이 연구는 로봇이 단순히 보이는 대로 반응하는 기계가 아니라, 미래를 상상하고 계획하는 지능을 갖출 수 있음을 증명했습니다.

  • 핵심 메시지: 로봇에게 "미래를 보는 눈 (World Model)"을 주면, 로봇은 실수를 줄이고 스스로 더 똑똑한 로봇으로 진화할 수 있습니다.
  • 미래: 앞으로는 로봇이 인간의 개입 없이도 스스로 데이터를 모아 스스로를 업그레이드하는 '자율 진화' 시대가 열릴 것입니다.

한 줄 요약:

"이제 로봇은 눈앞의 일만 하는 게 아니라, 미래를 상상하며 스스로 실수를 교정하는 '예지몽'을 통해 더 똑똑하고 안정적인 로봇으로 성장했습니다!"

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →