RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning

이 논문은 인간 숙련도 수준의 신뢰성과 효율성을 갖춘 실세계 로봇 조작을 위해 모방 학습과 강화 학습을 통합하고 증류 기법을 통해 실시간 제어를 가능하게 한 'RL-100' 프레임워크를 제안하며, 다양한 실물 로봇 작업에서 100% 성공률을 기록하고 인간 개입 없이도 장기적으로 안정적으로 작동하는 것을 입증했습니다.

Kun Lei, Huanyu Li, Dongjie Yu, Zhenyu Wei, Lingxiao Guo, Zhennan Jiang, Ziyu Wang, Shiyu Liang, Huazhe Xu

게시일 Wed, 11 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"RL-100"**이라는 이름의 새로운 로봇 학습 시스템을 소개합니다. 쉽게 말해, **"인간이 가르쳐준 기본기를 바탕으로, 로봇이 스스로 실전 경험을 쌓아 인간보다 더 똑똑하고 빠른 조작 능력을 터득하게 만든 방법"**입니다.

기존의 로봇은 인간이 직접 조종하는 데이터 (모방 학습) 만으로는 한계가 있었습니다. 인간이 실수하거나, 너무 느리게 움직이는 경우를 그대로 배우기 때문입니다. RL-100 은 이 문제를 해결하기 위해 세 가지 단계로 로봇을 훈련시킵니다.

1. 핵심 비유: "유치원생에서 프로 운동선수로"

이 시스템을 이해하기 위해 유치원생이 프로 운동선수가 되는 과정을 상상해 보세요.

  • 1 단계: 모방 학습 (유치원생)

    • 로봇은 처음에 인간이 직접 조종한 영상 (텔레오퍼레이션) 을 봅니다. 마치 아이가 부모님의 걸음걸이를 따라 배우는 것처럼, 로봇은 "어떻게 움직여야 안전한지" 기본기를 익힙니다.
    • 하지만 이때는 인간이 얼마나 느리게 움직였는지, 혹은 실수가 있었는지도 그대로 따라 하게 됩니다.
  • 2 단계: 오프라인 강화학습 (자율 훈련)

    • 이제 로봇은 혼자서 연습을 시작합니다. 하지만 위험한 실수를 바로바로 해서는 안 되니까, **가상 공간 (또는 과거 데이터)**에서 수천 번을 시뮬레이션하며 스스로 개선합니다.
    • 핵심 아이디어: 로봇은 "성공하면 점수 +1, 실패하면 점수 0"을 받습니다. 인간이 가르쳐준 기본기 위에, 로봇이 스스로 "어떻게 하면 더 빨리, 더 정확하게 할까?"를 고민하며 점수를 높여갑니다. 이때 중요한 것은 안정성입니다. 너무 급하게 변하면 망가질 수 있으니, 점진적으로만 발전시킵니다.
  • 3 단계: 온라인 강화학습 (실전 적응)

    • 이제 실제 로봇이 테이블 위에 서서 실전을 치릅니다. 아직 완벽하지 않은 아주 드문 실패 상황 (예: 물이 넘치거나, 물건이 미끄러지는 경우) 을 경험하며 마지막 다듬기를 합니다.
    • 마치 프로 운동선수가 시합 직전 마지막 컨디션을 조절하듯, 최소한의 실전 경험으로 100% 성공률을 달성합니다.

2. 기술적 마법: "고급 요리사 vs. 초고속 배달원"

이 시스템의 가장 놀라운 점은 두 가지 기술적 장치를 통해 정확함속도를 동시에 잡았다는 것입니다.

  • 확산 모델 (Diffusion Policy): "고급 요리사"

    • 로봇이 행동을 결정할 때, 한 번에 뚝딱 결정하는 게 아니라 노이즈 (잡음) 를 제거해가며 천천히 정답을 찾아냅니다. 마치 안개 속에서 길을 찾아 나가는 것처럼, 여러 번의 과정을 거쳐 가장 최적의 움직임을 만들어냅니다.
    • 이 방식은 매우 정교하고 복잡한 작업 (예: 수건 접기, 오렌지 짜기) 에 탁월합니다. 하지만 조금 느립니다.
  • 일관성 증류 (Consistency Distillation): "초고속 배달원"

    • 로봇이 실전 (공장이나 집) 에 나가면 1 초 1 초가 중요합니다. 그래서 연구진은 "고급 요리사 (확산 모델) 가 만들어낸 정답을 기억해 둔 뒤, 초고속 배달원 (일관성 모델) 이 그 정답을 한 번에 뽑아내게" 훈련시켰습니다.
    • 마치 복잡한 레시피를 머릿속에 완벽히 외운 요리사가, 주문이 들어오자마자 1 초 만에 요리를 완성해 내는 것과 같습니다. 이 덕분에 로봇은 초당 100 번 이상 빠르게 반응할 수 있게 되었습니다.

3. 실제 성과: "쇼핑몰에서 7 시간 동안 실패 없는 서비스"

이론만 좋은 게 아니라, 실제 로봇에게 적용했을 때 놀라운 결과가 나왔습니다.

  • 100% 성공률: 8 가지 다른 작업 (물건 밀기, 볼링 치기, 물 붓기, 수건 접기, 오렌지 짜기 등) 을 모두 1,000 번 시도해서 1,000 번 성공했습니다.
  • 인간보다 빠르고 정확: 숙련된 인간이 조종하는 것보다 더 빠르게 작업을 끝냈습니다.
  • 강력한 적응력:
    • 새로운 환경: 훈련할 때와 다른 바닥, 다른 물체, 심지어는 사람이 로봇을 밀어붙여도 (방해해도) 96% 이상 성공했습니다.
    • 실제 배포: 연구진은 이 로봇을 쇼핑몰에 가져가서 7 시간 동안 방문객들에게 오렌지 주스를 만들어 주었습니다. 단 한 번의 고장이나 실패 없이 계속 작동했습니다.

4. 결론: 왜 이것이 중요한가요?

기존의 로봇은 "사람이 시키는 대로"만 할 수 있었거나, "새로운 상황"이 오면 당황했습니다. 하지만 RL-100은 **"인간의 기본기를 배우고, 스스로 실전 경험을 쌓아 인간을 뛰어넘는 신뢰성과 효율성"**을 보여줍니다.

이 기술이 상용화되면, 우리 집이나 공장에서 로봇이 인간처럼, 혹은 그 이상으로 안전하고 빠르고 똑똑하게 일을 해줄 날이 머지않았음을 시사합니다. 마치 아이가 부모의 손을 잡고 걷다가, 결국 혼자서 어떤 길에서도 달릴 수 있게 되는 것과 같은 이야기입니다.