Ψ0Ψ_0: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation

이 논문은 인간과 휴머노이드 로봇 간의 운동학적 차이로 인한 기존 접근법의 한계를 극복하기 위해, 대규모 인간 시점 데이터를 활용한 사전 학습과 고품질 로봇 데이터를 통한 후속 학습이라는 2 단계 훈련 패러다임을 도입하여, 훨씬 적은 데이터로 기존 모델보다 40% 이상 뛰어난 성능을 보이는 오픈 소스 휴머노이드 로코-조작 기초 모델 'I^¨0Ψ_0'을 제안합니다.

Songlin Wei, Hongyi Jing, Boqian Li, Zhenyu Zhao, Jiageng Mao, Zhenhao Ni, Sicheng He, Jie Liu, Xiawei Liu, Kaidi Kang, Sheng Zang, Weiduo Yuan, Marco Pavone, Di Huang, Yue Wang

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🤖 Ψ0( Psi-Zero): 로봇이 인간처럼 '손발이 척척' 움직이는 비결

이 논문은 **"로봇이 인간처럼 복잡한 일을 척척 해내게 하려면 어떻게 해야 할까?"**라는 질문에 대한 새로운 해답을 제시합니다. 연구진은 USC 물리 초지능 (PSI) 랩에서 **Ψ0( Psi-Zero)**이라는 새로운 인공지능 모델을 개발했습니다.

이걸 이해하기 쉽게 요리사요리 도우미의 비유로 설명해 드릴게요.


1. 기존 방식의 문제점: "혼란스러운 요리 교실"

지금까지 로봇을 가르치려면, 인간의 영상로봇의 데이터를 모두 섞어서 한 번에 가르치는 방식이 많았습니다.

  • 비유: 마치 요리 실력을 가르치려는데, 인간 요리사가 칼질하는 모습과 로봇 팔이 움직이는 모습을 같은 교실에서 동시에 보여주면서 "이걸 보고 따라 해!"라고 하는 것과 같습니다.
  • 문제: 인간의 손과 로봇의 손은 생김새도, 움직임도 완전히 다릅니다. 그래서 로봇은 "어? 인간은 이렇게 하는데, 나는 어떻게 해야지?"라며 혼란을 겪고, 배우는 데도 시간이 너무 오래 걸립니다.

2. Ψ0 의 해결책: "단계별 요리 학교"

Ψ0 는 이 문제를 해결하기 위해 두 단계로 나누어 가르치는 새로운 방식을 도입했습니다.

1 단계: "요리 이론과 감각" 배우기 (VLM 학습)

  • 무엇을 하나요? 먼저 **인간의 일인칭 시점 영상 (내가 요리하는 모습)**만 800 시간 동안 보게 합니다.
  • 비유: 로봇이 인간 요리사의 영상을 보며 "커피를 따를 때 손은 어떻게 움직여야지?", "식탁을 닦을 때 어떤 순서로 해야 하지?" 같은 요리 이론과 상황 판단 능력을 익힙니다.
  • 효과: 로봇은 실제 로봇 팔을 움직이는 법은 아직 몰라도, "무엇을 해야 하는지"에 대한 **상식과 비전 (Vision)**을 완벽하게 갖게 됩니다.

2 단계: "실제 요리 도구" 다루기 (Action Expert 학습)

  • 무엇을 하나요? 이제 이론을 다 배운 로봇에게 실제 로봇 팔로만 30 시간 정도 훈련을 시킵니다.
  • 비유: 이제 로봇은 "아, 커피를 따르는 건 이런 순서구나!"라는 이론을 알고 있으니, **"내 손 (로봇 관절) 으로 어떻게 그 동작을 구현할지"**만 집중해서 연습합니다.
  • 효과: 이론과 실습을 분리했기 때문에, 적은 데이터로도 훨씬 빠르고 정확하게 로봇의 손가락을 움직일 수 있게 됩니다.

3. Ψ0 의 핵심 기술: "부드러운 춤" (실시간 조각화)

로봇이 생각하다 움직이다 보면, "생각하는 동안 멈추고, 움직이다가 다시 멈추는" 어색한 동작이 나올 수 있습니다.

  • 비유: 춤을 추는데 음악이 끊기면 춤추는 사람이 멈칫거리게 되죠.
  • 해결책: Ψ0 는 "실시간 조각화 (Real-Time Chunking)" 기술을 썼습니다. 이는 다음 동작을 미리 준비해 두는 것입니다. 한 동작이 끝날 때쯤 다음 동작이 이미 준비되어 있어서, 로봇이 부드럽게 춤추듯 연속적으로 움직이게 합니다.

4. 놀라운 성과: 적은 데이터로 대박!

이론과 실습을 분리한 이 방식은 정말 놀라운 결과를 낳았습니다.

  • 데이터 효율: Ψ0 는 인간 영상 800 시간 + 로봇 데이터 30 시간만으로도 훈련되었습니다.
  • 비교: 다른 최신 로봇 모델들은 10 배 이상 많은 데이터로 훈련했는데도, Ψ0 가 성공률에서 40% 이상 더 높은 점수를 받았습니다.
  • 실제 능력: 냉장고 문을 열고, 카트를 밀고, 컵을 따르고, 식탁을 닦는 등 복잡한 집안일을 척척 해냅니다.

5. 결론: "올바른 데이터를 올바른 방식으로"

이 연구의 핵심 메시지는 **"데이터를 무조건 많이 모으는 것보다, 어떤 데이터를 어떻게 가르칠지가 더 중요하다"**는 것입니다.

  • 인간의 영상으로 '상식'을 배우고,
  • 적은 로봇 데이터로 '실제 기술'을 다듬는 방식이,
  • 로봇이 인간처럼 똑똑하고 유연하게 움직이는 지름길이라는 것을 증명했습니다.

이제 Ψ0 는 오픈소스로 공개되어, 앞으로 더 많은 로봇이 우리 일상에서 인간처럼 자연스럽게 일할 수 있는 기반이 될 것입니다! 🏠🤖✨