Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

이 논문은 다양한 신체 구조의 데이터를 광학 흐름을 통해 통합하여 세계 모델을 사전 학습한 후, 이를 타겟 로봇의 소량 데이터로 미세 조정하고 가치 함수를 활용해 행동 복제 정책을 최적화함으로써 저데이터 환경에서 로봇 시각-운동 정책의 성능을 획기적으로 향상시키는 '잠재 정책 조종 (LPS)' 방법을 제안합니다.

Yiqi Wang, Mrinal Verghese, Jeff Schneider

게시일 Wed, 11 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"로봇이 새로운 일을 배울 때, 실패를 두려워하지 않고 다양한 경험을 쌓아 더 똑똑하게 만드는 방법"**을 소개합니다.

기존의 로봇 학습 방식은 마치 **"한 가지 악기만 배운 피아니스트가 갑자기 기타를 잡으려 할 때"**와 비슷했습니다. 로봇 A(예: 팔이 긴 로봇) 가 배운 기술을 로봇 B(예: 팔이 짧은 로봇) 가 바로 쓰려면, 로봇 B 는 처음부터 다시 수천 번의 연습을 해야 했습니다. 데이터가 부족하면 실패하기 일쑤였죠.

이 연구는 이를 해결하기 위해 세 가지 핵심 아이디어를 제안합니다.

1. "모든 로봇의 손짓을 '바람'으로 번역하다" (광학 흐름)

가장 큰 문제는 로봇마다 몸체 (Embodiment) 가 달라서 '손을 움직이는 법'이 다르다는 점입니다. 하지만 **무엇을 하려는지 (목표)**는 비슷합니다. 컵을 들 때, 로봇 A 는 위로 들어 올리고, 로봇 B 는 옆으로 당기지만, 결과적으로 컵이 움직이는 '화면 속 흐름'은 비슷합니다.

저자들은 이를 **"광학 흐름 (Optical Flow)"**이라는 기술로 해결했습니다.

  • 비유: 로봇의 구체적인 '손가락 움직임'을 외우는 대신, **화면 속에서 물체가 어떻게 흐르는지 (바람의 방향)**만 기록하는 것입니다.
  • 효과: 로봇 A, B, C 가 다르더라도, 컵을 집는 '바람의 흐름'은 똑같습니다. 그래서 이 '바람'을 언어로 삼으면, 어떤 로봇이든 서로의 경험을 공유할 수 있게 됩니다.

2. "가상 세계에서의 수천 번 연습" (세계 모델)

로봇은 실제 실험실에서 실수하면 물건을 떨어뜨리거나 부술 수 있어 비용이 많이 듭니다. 대신 연구자들은 **가상 세계 (World Model)**를 만들었습니다.

  • 비유: 비행기 조종사가 실제 비행기 대신 비행 시뮬레이터에서 수천 번의 착륙 연습을 하는 것과 같습니다.
  • 과정: 먼저 다양한 로봇과 인간이 만든 '바람의 흐름' 데이터를 모아, 가상 세계에서 **"어떤 행동을 하면 어떤 결과가 나올지"**를 미리 예측하는 두뇌 (세계 모델) 를 훈련시킵니다. 이때는 실제 로봇의 몸체와 상관없이 '바람'만 보고 학습하므로, 방대한 데이터를 저렴하게 모을 수 있습니다.

3. "실전에서의 '내비게이션'이 되어주는 나침반" (잠재 정책 조향)

이제 훈련된 가상 두뇌를 실제 로봇 (타겟 로봇) 에 적용합니다. 하지만 가상과 실제는 다릅니다. 그래서 **소량의 실제 데이터 (30~50 개 정도)**로 두뇌를 미세 조정합니다.

여기서 가장 중요한 것은 **'가치 함수 (Value Function)'**입니다.

  • 비유: 로봇이 길을 가다가 갈림길에 서 있을 때, 내비게이션이 "이 길로 가면 실패할 확률이 높고, 저 길로 가면 성공할 확률이 높다"고 알려주는 것과 같습니다.
  • 작동 원리: 로봇이 여러 가지 행동을 상상해 봅니다. (예: "왼쪽으로 갈까?", "오른쪽으로 갈까?"). 이때 미리 훈련된 '가상 두뇌'가 각 시나리오를 시뮬레이션하고, **가장 성공 확률이 높은 길 (가장 안전한 경로)**을 선택하게 합니다. 이를 통해 로봇은 실수할 확률을 줄이고, 전문가처럼 행동하게 됩니다.

🌟 이 방법의 성과

이 방법을 사용하면, 실제 로봇에게 30~50 개의 짧은 시연 데이터만 줘도 성능이 70% 이상 향상되었습니다. 기존 방식은 같은 작업을 배우기 위해 훨씬 더 많은 데이터가 필요했습니다.

요약

이 논문은 **"로봇에게 구체적인 몸짓을 가르치는 대신, 화면 속 움직임의 흐름 (바람) 을 가르쳐 서로의 경험을 공유하게 하고, 가상 세계에서 수천 번 연습시킨 뒤, 실제 상황에서는 내비게이션이 되어 가장 안전한 길을 선택하게 한다"**는 혁신적인 접근법을 제시합니다.

이제 로봇은 새로운 일을 배울 때, 처음부터 다시 시작하는 것이 아니라 수많은 선배들의 경험을 바탕으로 더 똑똑하고 빠르게 적응할 수 있게 되었습니다.