SCDP: Learning Humanoid Locomotion from Partial Observations via Mixed-Observation Distillation

이 논문은 부분 관측 데이터만으로 인간형 로봇의 보행 제어를 가능하게 하기 위해, 센서 입력을 기반으로privileged 상태 정보를 추론하도록 훈련된 센서 조건부 확산 정책 (SCDP) 을 제안하고, 시뮬레이션 및 실제 G1 로봇에서의 성공적인 배포를 입증합니다.

Milo Carroll, Tianhu Peng, Lingfan Bao, Chengxu Zhou, Zhibin Li

게시일 Wed, 11 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🤖 제목: "눈을 감고도 춤추는 로봇: SCDP"

1. 문제점: "안면 인식 카메라가 고장 난 상황"

기존의 똑똑한 로봇들은 걷거나 뛰기 위해 외부 카메라나 모션 캡처 시스템을 사용했습니다. 마치 무대 위에서 조명이 켜져 있고, 카메라가 로봇의 정확한 위치와 속도를 실시간으로 알려주는 상태였죠.
하지만 이 시스템은 실외나 복잡한 환경에서는 고장 나기 쉽습니다. 카메라가 망가지거나 빛이 부족하면 로봇은 "내가 어디에 있는지, 얼마나 빨리 가고 있는지"를 모르게 되어 넘어집니다.

  • 비유: 마치 눈을 가리고 달리는 마라톤 선수에게, 코치만 "지금 5km 지점이다, 시속 10km 로 달려"라고 외쳐주는 상황을 상상해 보세요. 코치가 사라지면 선수는 당황해서 넘어집니다.

2. 해결책: "SCDP"라는 새로운 훈련법

연구팀 (UCL) 은 로봇이 외부 코치 없이도 스스로 속도와 위치를 추측해 낼 수 있도록 훈련하는 새로운 방법인 SCDP를 개발했습니다.

이 방법의 핵심은 **"가짜 정보로 연습하고, 진짜 감각으로 실전"**을 치르는 것입니다.

  • 혼합 관찰 훈련 (Mixed-Observation Distillation):
    • 훈련 중: 로봇은 자신의 몸 감각 (관절 각도, 가속도 등) 만으로 입력을 받지만, 정답은 "외부 카메라가 알려준 정확한 위치와 속도"로 가르칩니다.
    • 효과: 로봇은 "내 몸이 이렇게 흔들렸을 때, 실제로는 이렇게 움직였을 거야"라고 스스로 추론하는 능력을 기르게 됩니다. 마치 눈을 가리고도 소리를 듣고 방향을 파악하는 능력을 키우는 것과 같습니다.

3. 핵심 기술 3 가지 (비유로 설명)

  1. 제한된 소음 제거 (Restricted Denoising):

    • 로봇이 훈련할 때, "속도"라는 정보를 일부러 숨겨버립니다. 로봇은 몸의 흔들림 (과거 데이터) 만 보고 "아, 내가 지금 빨리 가고 있구나"라고 스스로 속도를 유추해야 합니다.
    • 비유: 운전할 때 속도계가 고장 났다고 가정해 보세요. 엔진 소리와 바람 소리를 듣고 "아, 내가 시속 60km 로 가고 있구나"라고 추측하는 훈련을 시키는 것입니다.
  2. 맥락 정렬 (Context Distribution Alignment):

    • 훈련할 때와 실전할 때 로봇이 느끼는 정보가 달라서 생기는 혼란을 막습니다.
    • 비유: 연습할 때는 "실제 상황과 똑같은 혼란스러운 상태"로 연습해야, 실전에서도 당황하지 않습니다. (예: 시뮬레이션에서 비가 오고 길이 미끄러울 때 연습해야 실제 비 오는 날 운전도 잘합니다.)
  3. 주의 집중 마스크 (Context-Aware Attention Masking):

    • 로봇이 과거의 기억을 잘 활용하도록 도와줍니다.
    • 비유: 로봇이 "1 초 전 발이 어떻게 움직였는지"와 "2 초 전 몸이 어떻게 기울었는지"를 동시에 기억하며 미래를 예측하도록 돕는 것입니다.

4. 실제 성과: "실제 로봇 G1 의 성공"

이 기술을 유니트리 (Unitree) G1이라는 실제 인간형 로봇에 적용해 보았습니다.

  • 결과: 외부 카메라나 위치 추적기 없이, 오직 로봇 몸의 센서만 사용해도 99%~100% 의 성공률로 걷고 방향을 바꾸고 장애물을 피했습니다.
  • 특이점: 기존 방법들은 외부 정보가 없으면 5% 미만으로 실패했지만, 이 방법은 완벽하게 작동했습니다. 심지어 실제 로봇에서 1 초에 50 번 (50Hz) 이나 빠르게 계산하며 움직였습니다.

🌟 한 줄 요약

"이 논문은 로봇에게 '눈을 감고도 자신의 몸만 느끼며 정확한 속도와 위치를 추측해내는 초능력'을 가르쳐, 외부 장비 없이도 현실 세계에서 자유롭게 걷게 만든 혁신적인 방법입니다."

이 기술은 로봇이 카메라나 GPS 가 없는 어두운 동굴, 혹은 먼 우주에서도 스스로 길을 찾아다니는 데 큰 역할을 할 것으로 기대됩니다.