ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation

이 논문은 물리 기반 신경 리타게팅 알고리즘과 강화 학습을 결합한 통합 멀티모달 제어 프레임워크인 ULTRA 를 제안하여, 인간형 로봇이 사전 정의된 동작 참조 없이도 egocentric 시각 입력만으로 자율적인 전신 loco-manipulation 을 수행할 수 있도록 합니다.

Xialin He, Sirui Xu, Xinyao Li, Runpei Dong, Liuyu Bian, Yu-Xiong Wang, Liang-Yan Gui

게시일 2026-03-04
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"ULTRA"**라는 이름의 새로운 인공지능 시스템을 소개합니다. 이 시스템은 인간형 로봇 (휴머노이드) 이 복잡한 환경에서 물건을 들고 옮기거나, 다양한 작업을 스스로 수행할 수 있도록 돕는 '두뇌' 역할을 합니다.

기존의 로봇들은 마치 무용수가 미리 짜인 안무 (참고 영상) 를 따라 춤을 추는 것처럼, 정해진 동작만 반복할 수 있었습니다. 하지만 ULTRA 는 실제 상황을 보고 스스로 판단하여 춤을 추는 프로 댄서와 같습니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 문제점: 로봇은 왜 '안무'만 따라 할까?

지금까지 로봇을 가르치는 방식은 크게 두 가지 한계가 있었습니다.

  • 안무가 너무 많으면: 로봇이 기억해야 할 동작이 너무 많아서 혼란스럽습니다.
  • 안무가 없으면: 로봇이 "상자를 들어라"라는 말만 듣고는 어떻게 해야 할지 몰라 멈춰 섭니다.
  • 가장 큰 문제: 로봇이 물건을 잡을 때, 발이 미끄러지거나 물건을 떨어뜨리는 등 물리 법칙을 무시한 엉뚱한 동작을 자주 합니다.

2. ULTRA 의 해결책: 3 단계로 이루어진 '스마트 훈련 과정'

ULTRA 는 로봇을 가르칠 때 세 가지 단계를 거칩니다. 마치 훌륭한 요리사가 요리를 배우는 과정과 비슷합니다.

1 단계: "현실적인 요리법 만들기" (물리 기반 동작 재구성)

  • 비유: 인간이 하는 동작을 로봇에게 그대로 복사하려다 보면, 로봇의 몸 구조가 달라서 넘어지거나 물건을 떨어뜨릴 수 있습니다.
  • ULTRA 의 방법: ULTRA 는 인간의 동작 데이터를 가져와서, 로봇의 몸체와 물리 법칙 (중력, 마찰력 등) 을 고려해 다시 계산합니다. 마치 인간이 하는 '스프링' 동작을 로봇이 할 수 있도록 로봇의 관절과 근육에 맞게 자연스럽게 변형해 주는 것입니다.
  • 결과: 로봇이 물건을 들 때 발이 미끄러지지 않고, 물건을 꽉 잡는 등 현실적으로 가능한 동작을 만들어냅니다.

2 단계: "명예 교수의 지도" (특권 교사 학습)

  • 비유: 로봇에게 완벽한 지도를 주는 '교수님 (Teacher)'이 있습니다. 이 교수는 로봇이 보는 것뿐만 아니라, 로봇이 모르는 모든 정보 (정확한 물체 위치, 미래의 상태 등) 를 알고 있습니다.
  • ULTRA 의 방법: 이 '교수님'이 먼저 완벽한 동작을 배웁니다. 하지만 실제 로봇은 교수님처럼 모든 정보를 알 수 없습니다. 그래서 교수님의 지식을 가상 현실 (시뮬레이션) 에서 완벽하게 훈련시킵니다.

3 단계: "실전 연습과 적응" (학생 학습 및 강화)

  • 비유: 이제 '학생 (Student)' 로봇이 실전에 나갑니다. 학생은 교수님처럼 모든 정보를 알지 못합니다. 카메라 (눈) 로 보는 것만으로는 물체의 위치가 흐릿할 수도 있고, "상자를 저쪽으로 가져가라"라는 간단한 명령만 들을 수도 있습니다.
  • ULTRA 의 방법:
    • 지식 전수: 교수님이 배운 기술을 학생에게 압축해서 가르칩니다.
    • 실전 훈련 (RL): 학생이 실수할 때, "아, 이럴 때는 이렇게 해야지"라고 스스로 학습하게 합니다.
    • 유연성: 안무 (참고 영상) 가 있으면 그걸 따라 하고, 안무가 없으면 "상자를 들어라"라는 말만으로도 스스로 판단해 움직입니다.

3. ULTRA 의 놀라운 능력

이 시스템은 세 가지 상황을 모두 잘 처리합니다.

  1. 정밀한 안무 추종 (Dense Tracking):

    • 상황: "이 영상 속 동작을 똑같이 따라 해."
    • 결과: 로봇이 인간이 하는 복잡한 춤이나 물체 조작을 거의 완벽하게 따라 합니다.
  2. 세부 명령 수행 (Fine-grained Control):

    • 상황: "상자를 들어 올려서 오른쪽으로 옮겨."
    • 결과: 구체적인 동작을 정해주지 않아도, 로봇이 스스로 상자를 들고 이동하는 최적의 경로를 찾아냅니다.
  3. 자신만의 눈으로 목표 달성 (Long-horizon Goal Following):

    • 상황: "저기 있는 상자를 찾아서 가져와." (오직 로봇의 카메라만 사용)
    • 결과: 외부의 정밀한 센서 없이, 로봇이 자신의 카메라로 주변을 보며 상자를 찾아내고, 잡고, 목표 지점까지 가져갑니다.

4. 실제 실험 결과 (Unitree G1 로봇)

연구진은 이 기술을 실제 로봇 (Unitree G1) 에 적용했습니다.

  • 시뮬레이션에서: 다른 로봇들보다 훨씬 더 안정적으로 물건을 들고 옮겼습니다.
  • 실제 세상에서: 카메라로만 보고도 상자를 들고 이동하는 데 성공했습니다. 특히, 예상치 못한 장애물이나 명령이 들어와도 스스로 균형을 잡고 회복하는 능력을 보여주었습니다.

요약: 왜 이것이 중요한가요?

기존의 로봇은 **"무대 위의 인형"**처럼 정해진 대로만 움직였습니다. 하지만 ULTRA 를 통해 로봇은 **"현실 세계의 활동적인 파트너"**가 되었습니다.

  • 안무가 없어도: 스스로 판단합니다.
  • 환경이 복잡해도: 넘어지지 않습니다.
  • 다양한 명령: "춤춰", "상자 들어", "저기 가" 등 어떤 명령이 들어와도 유연하게 대응합니다.

결론적으로, ULTRA 는 인간형 로봇이 집안일이나 공장 작업 등 실제 세상에서 유용하게 쓰일 수 있는 첫걸음을 내딛게 해주는 획기적인 기술입니다.