SteadyTray: Learning Object Balancing Tasks in Humanoid Tray Transport via Residual Reinforcement Learning

이 논문은 ReST-RL 이라는 계층적 강화학습 아키텍처를 통해 보행 진동과 화물 안정화를 분리 제어함으로써, 인간형 로봇이 외부 방해와 다양한 물체를 운반할 때에도 높은 성공률과 제로샷 시뮬레이션-실제 일반화 능력을 달성함을 보여줍니다.

Anlun Huang, Zhenyu Wu, Soofiyan Atar, Yuheng Zhi, Michael Yip

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🍷 흔들리지 않는 트레일: 로봇이 술잔을 들고 걷는 법 (SteadyTray)

이 논문은 인간형 로봇이 흔들리는 보행 중에도 술잔이나 커피잔 같은 불안정한 물건을托盘 (트레이) 위에 올려놓고 떨어뜨리지 않고 운반하는 기술을 소개합니다.

마치 술잔이 가득 찬 접시를 들고 춤추듯 걷는 웨이터를 상상해 보세요. 보통 로봇은 걷다가 발이 바닥에 닿을 때 몸이 툭툭 흔들리는데, 이때 위에 있는 물체는 쉽게 넘어지거나 쏟아집니다. 이 연구는 그 문제를 해결한 획기적인 방법인 **'ReST-RL'**을 제안합니다.


🧠 핵심 아이디어: "두 명의 마술사" (교사와 학생)

이 기술은 마치 **숙련된 마술사 (교사)**와 **그를 돕는 보조 마술사 (학생)**가 팀을 이루어 작동합니다.

  1. 기본 마술사 (Base Policy):

    • 이 로봇은 이미 걷는 법을 완벽하게 배웠습니다. 발을 디디고 균형을 잡는 것은 이 로봇의 본능입니다.
    • 하지만 이 로봇은 "위험한 물건을 들고 걷는 것"은 아직 모릅니다. 그냥 걷기만 하면 물체가 흔들립니다.
  2. 보조 마술사 (Residual Module):

    • 여기서 ReST-RL이 등장합니다. 이 보조 마술사는 로봇이 걷는 동안 실시간으로 미세한 교정을 해줍니다.
    • 비유: 기본 마술사가 "왼발, 오른발"이라고 걸음을 옮길 때, 보조 마술사는 "아, 지금 술잔이 왼쪽으로 기울었네? 그럼 팔을 살짝 오른쪽으로 움직여서 균형을 맞춰줘!"라고 속삭입니다.
    • 중요한 점은 기본 마술사의 걷는 습관을 망치지 않고, 오직 물체 안정화에만 집중한다는 것입니다.

🎓 훈련 과정: "가상 현실"에서 "실제 세상"으로

로봇을 실제로 훈련시키기 전에, 컴퓨터 속의 **가상 현실 (시뮬레이션)**에서 먼저 훈련시킵니다.

  • 특권 정보 (Privileged Information): 가상 세계에서는 로봇이 물체의 정확한 위치, 속도, 중력 방향 등을 '투시'할 수 있습니다. 마치 X-ray 안경을 쓴 상태죠. 이 정보를 이용해 보조 마술사가 어떻게 움직여야 할지 완벽하게 학습합니다.
  • 지식 전수 (Distillation): 하지만 실제 세상에서는 X-ray 안경을 쓸 수 없습니다. 카메라로 보는 것만으로는 정보가 부족할 수 있죠. 그래서 가상 세계의 '투시 능력'을 실제 '카메라 눈'으로 변환하는 훈련을 합니다.
    • 마치 **마법사 (가상 훈련)**가 **일반인 (실제 로봇)**에게 "눈으로만 봐도 저 물체가 넘어질 것 같아, 이렇게 손목을 살짝 돌려줘"라고 직관적인 감각을 가르쳐 주는 것과 같습니다.

🌪️ 왜 이 기술이 특별한가요? (기존 기술과의 차이)

기존에는 로봇이 걷는 것과 물체를 잡는 것을 **하나의 거대한 뇌 (End-to-End)**로 통합해서 학습시켰습니다.

  • 문제점: 걷는 것과 물체 잡는 것은 서로 충돌하는 목표입니다. (예: 빨리 가려면 몸이 흔들리기 쉽지만, 물체를 안정시키려면 천천히 움직여야 함). 하나의 뇌가 두 가지를 동시에 하려다 보니 둘 다 제대로 못 하는 경우가 많았습니다.
  • 이 연구의 해결책: 걷는 기능과 물체 안정화 기능을 분리했습니다. 걷는 기능은 그대로 두고, 물체만 안정시키는 '추가 모듈'을 달아주었습니다. 그래서 걷는 것은 여전히 잘하고, 물체도 떨어뜨리지 않습니다.

🧪 실제 실험 결과: "Unitree G1" 로봇의 활약

이 기술은 실제 Unitree G1이라는 인간형 로봇에 적용되었습니다.

  • 상황: 로봇이 걷다가 누군가 밀어붙이거나 (Push), 로봇이 발로 차이는 상황이 발생해도, 로봇은 술잔이 든 트레이를 수평으로 유지하며 넘어지지 않게 합니다.
  • 다양한 물건: 커피잔, 물이 든 와인잔, 수술 도구, 밀폐된 음식 용기 등 무게와 모양이 다른 다양한 물건을 재학습 없이도 성공적으로 운반했습니다.
  • 성공률: 시뮬레이션에서 약 **97%**의 성공률을 보였으며, 실제 로봇에서도 외부 충격에 매우 강하게 반응했습니다.

💡 요약: 이 기술이 가져올 미래

이 연구는 로봇이 병원에서 수술 기구를 운반하거나, 카페에서 뜨거운 커피를 배달하거나, 노인 요양원에서 물건을 나르는 등, 불안정한 물건을 들고 다니는 일상적인 업무를 인간처럼 자연스럽게 수행할 수 있는 길을 열었습니다.

한 줄 요약:

"로봇이 걷는 본능은 그대로 두고, **'술잔을 흔들리지 않게 잡는 추가 뇌'**를 달아주어, 비틀거리면서도 물건을 안전하게 운반하는 기술을 개발했습니다."