ZeroWBC: Learning Natural Visuomotor Humanoid Control Directly from Human Egocentric Video

이 논문은 대규모 로봇 원격 조종 데이터 없이도 인간 1 인칭 시점 비디오만으로 자연스러운 전신 인간형 로봇 제어를 가능하게 하는 'ZeroWBC' 프레임워크를 제안하고, 이를 통해 인간형 로봇의 자연스러운 행동과 다용도성을 크게 향상시켰음을 보여줍니다.

Haoran Yang, Jiacheng Bao, Yucheng Xin, Haoming Song, Yuyang Tian, Bin Zhao, Dong Wang, Xuelong Li

게시일 Wed, 11 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

제로WBC: 로봇에게 '인간처럼' 걷고 행동하는 법을 가르치는 혁신적인 방법

이 논문은 휴머노이드 로봇이 복잡한 세상에서 인간처럼 자연스럽게 행동하는 법을 배우는 새로운 방법, **'제로WBC (ZeroWBC)'**를 소개합니다.

기존의 로봇들은 무거운 원격 조종 장비를 쓰거나, 시뮬레이션에서만 훈련받아 현실 세계에 나오면 어색하게 움직이는 경우가 많았습니다. 하지만 이 새로운 방법은 마치 유튜브나 인스타그램을 보며 로봇을 가르치는 것처럼, 인간의 일상 영상을 통해 로봇을 학습시킵니다.

이 복잡한 기술을 쉽게 이해할 수 있도록 세 가지 단계로 나누어 설명해 드릴게요.


1. 문제: 왜 로봇은 아직 '인간' 같지 않을까?

지금까지 로봇을 가르치려면 두 가지 방법 중 하나를 썼습니다.

  • 방법 A (원격 조종): 사람이 직접 로봇을 조종하며 데이터를 모으는 것. (너무 비싸고 귀찮음)
  • 방법 B (시뮬레이션): 컴퓨터 게임 속에서만 훈련시키는 것. (현실과 달라서 실제 로봇에 적용하면 엉망이 됨)

이 두 방법 모두 로봇이 "의자에 앉기"나 "공 차기" 같은 복잡한 행동을 자연스럽게 하기는 어렵게 만들었습니다. 로봇은 마치 춤을 추는 인형처럼 딱딱하게 움직일 뿐, 주변 환경을 보고 반응하는 '인간 같은' 행동은 못 했습니다.

2. 해결책: 제로WBC의 두 단계 마법

저자들은 **"로봇을 직접 조종하지 말고, 인간의 영상을 보고 배우게 하자"**는 아이디어를 제안했습니다. 이를 위해 두 단계의 마법을 사용합니다.

1 단계: "영웅 영화 감독" (모션 생성 AI)

  • 역할: 로봇에게 "소파에 앉아서"라고 말하면, 로봇이 어떻게 움직여야 할지 구체적인 동작 시나리오를 만들어주는 역할입니다.
  • 비유: 마치 영화 감독이 배우에게 "이제 소파에 앉아서 커피를 마셔"라고 지시하면, 배우가 그 상황을 상상하며 자연스럽게 앉는 동작을 떠올리는 것과 같습니다.
  • 작동 원리:
    • 로봇은 자신의 눈 (카메라) 으로 주변을 보고, 사용자의 명령 (예: "공을 차라") 을 듣습니다.
    • 이 정보를 바탕으로 거대한 AI 모델 (VLM) 이 **"인간이 이 상황에서 어떻게 움직일지"**에 대한 시나리오를 만듭니다.
    • 이때, 로봇은 직접 실패를 겪으며 배우는 게 아니라, 수천 시간의 인간 일상 영상을 통해 이미 '어떻게 행동해야 하는지'를 배워왔습니다.

2 단계: "완벽한 무용 교습사" (모션 추적 AI)

  • 역할: 1 단계에서 만든 시나리오를 로봇의 몸 (관절) 에 맞게 정확히 따라 하게 만드는 역할입니다.
  • 비유: 무용 교습사가 학생에게 "팔을 이렇게 들어라"라고 시범을 보이면, 학생이 그 동작을 완벽하게 따라 하는 것과 같습니다.
  • 작동 원리:
    • 1 단계에서 만든 '인간의 동작'을 로봇의 관절에 맞게 변형 (리타겟팅) 합니다.
    • 로봇은 이 동작을 따라 하기 위해 강화 학습을 통해 훈련받았습니다. 마치 춤 연습을 할 때, 처음에는 쉬운 동작부터 시작해 점점 어려운 동작을 배우는 커리큘럼 학습 방식을 썼습니다.
    • 덕분에 로봇은 넘어지지 않고, 공을 차거나 의자에 앉는 등 복잡한 동작도 안정적으로 수행합니다.

3. 실제 성과: 로봇이 인간처럼 행동하다!

이 방법을 Unitree G1이라는 휴머노이드 로봇에 적용해 실험한 결과는 놀라웠습니다.

  • 새로운 상황에도 잘 적응: 훈련 데이터에 없던 장애물이나 소파가 있어도, 로봇은 스스로 길을 찾아 피하고 앉았습니다. (소위 'Few-shot' 및 'Zero-shot' 능력)
  • 자연스러운 움직임: 로봇이 의자에 앉을 때, 마치 사람이 앉듯 다리를 구부리고 균형을 잡는 모습이 매우 자연스러웠습니다.
  • 데이터 비용 절감: 비싼 원격 조종 장비 없이, 인간의 영상 데이터만으로 훈련했기 때문에 비용과 시간을 획기적으로 줄였습니다.

요약: 왜 이 연구가 중요한가요?

이 연구는 로봇이 **"원격 조종사의 손"**이 아니라, **"스스로 세상을 보고 배우는 존재"**로 진화하는 중요한 발걸음입니다.

마치 유튜브를 보며 요리법을 배우는 사람처럼, 로봇도 인간의 일상 영상을 통해 복잡한 세상에서 자연스럽게 행동하는 법을 배울 수 있게 된 것입니다. 앞으로는 로봇이 우리 집 소파에 앉아 커피를 마시거나, 공을 차며 놀아주는 날이 더 가까워질 것입니다.

한 줄 요약:

"비싼 원격 조종 없이, 인간의 일상 영상만 보고 로봇에게 '인간처럼' 자연스럽게 행동하는 법을 가르치는 혁명적인 방법!"