Embodiment-Aware Generalist Specialist Distillation for Unified Humanoid Whole-Body Control

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"서로 다른 몸매를 가진 다양한 휴머노이드 로봇을 한 명의 '유니콘' 같은 마스터 로봇이 모두 잘 조종할 수 있게 만드는 방법"**을 소개합니다.

기존에는 로봇 하나하나마다 따로 훈련을 시켜야 했지만, 이 연구는 **"한 번에 배운 지식을 서로 공유하고 다듬는 과정"**을 통해 모든 로봇을 한 번에 제어하는 기술을 개발했습니다.

이 복잡한 기술을 쉽게 이해할 수 있도록 **'요리 학교'**와 '전문가 팀' 비유로 설명해 드리겠습니다.

🍳 핵심 비유: "유니버설 셰프 (EAGLE)" 프로젝트

상상해 보세요. Unitree H1, G1, Fourier N1 등 서로 다른 로봇들은 마치 키가 크고 마른 사람, 키가 작고 통통한 사람, 팔이 긴 사람처럼 몸매 (구조) 가 완전히 다릅니다.

기존 방식은 이들에게 "각자 자신의 몸매에 맞는 레시피를 따로따로 배우게" 했습니다. 하지만 이 연구는 다음과 같은 새로운 방식을 제안합니다.

1. 문제: "왜 모두 같은 레시피를 못 배우지?"

로봇마다 다리가 길고 짧고, 관절이 많고 적습니다. 그래서 "걸어라"라는 명령을 내렸을 때, 큰 로봇은 큰 걸음을, 작은 로봇은 작은 걸음을 걸어야 합니다. 기존에는 이 차이를 고려하지 않고 한 가지 정책 (Policy) 으로 모든 로봇을 통제하려다 실패하거나, 로봇마다 다시 처음부터 훈련시켜야 했습니다.

2. 해결책: "유니버설 셰프 (Generalist) 와 전문가 (Specialist) 의 순환 훈련"

저자들은 EAGLE이라는 시스템을 만들었습니다. 이는 마치 요리 학교에서 일어나는 일과 같습니다.

단계 1: 마스터 셰프 (Generalist) 가 등장합니다.
- 모든 로봇 (다양한 몸매) 을 섞어서 한꺼번에 가르칩니다. 아직은 모든 로봇을 완벽하게 조종하지는 못하지만, "기본적인 걸음걸이"는 익힙니다.
단계 2: 각 로봇별 '전문가 셰프' (Specialist) 를 파견합니다.
- 마스터 셰프의 지식을 바탕으로, H1 전용 셰프, G1 전용 셰프 등을 따로 만듭니다.
- 이들은 각자 자신의 로봇 (예: H1) 에만 집중해서 "내 몸매에 딱 맞는 완벽한 걷기"를 연습합니다.
단계 3: 지식을 다시 모으는 '다시 배움' (Distillation).
- 여기서 핵심입니다! 각 전문가 셰프가 배운 **특별한 비법 (H1 은 이렇게 걸어야 잘 걷고, G1 은 저렇게 걸어야 잘 걷는다는 것)**을 다시 마스터 셰프에게 가르칩니다.
- 마스터 셰프는 이 새로운 비법들을 모두 합쳐서 "어떤 몸매든 상황에 맞춰 최적의 걸음걸이를 찾는" 초능력을 얻게 됩니다.
단계 4: 반복.
- 이 과정을 여러 번 반복하면, 마스터 셰프는 어느 로봇이든 한 번도 보지 않은 로봇이라도 즉시 잘 조종할 수 있게 됩니다.

🚀 이 기술의 놀라운 점 (기존과 다른 점)

단순 걷기만 하는 게 아닙니다.
- 기존 로봇들은 "걸어라", "뛰어라" 정도만 할 수 있었습니다. 하지만 이 기술은 "쪼그려 앉기 (Squatting)", "몸을 기울이기 (Leaning)" 같은 복잡한 동작까지 한 번에 시킬 수 있습니다. 마치 로봇에게 "걸으면서 동시에 몸을 숙여라"라고 명령해도 척척 해낸다는 뜻입니다.
로봇마다 따로 레시피를 고칠 필요가 없습니다.
- 새로운 로봇이 나오면 훈련을 처음부터 다시 할 필요가 없습니다. 기존에 훈련된 '마스터 셰프'에게 그 로봇의 몸매 정보만 알려주면, 바로 적응해서 작동합니다.
실제 로봇에서도 작동합니다.
- 시뮬레이션 (가상 세계) 에서만 잘하는 게 아니라, 실제 Unitree H1, G1 등 4 가지 다른 로봇에 적용해 보았을 때도 **한 번도 보지 않은 로봇 (Zero-shot)**임에도 불구하고 매우 안정적으로 걷고, 앉고, 기울이는 모습을 보여주었습니다.

💡 요약하자면

이 논문은 **"서로 다른 몸매를 가진 로봇들"**을 위해 **"하나의 두뇌 (정책)"**를 개발했습니다.

그 방법은 마치 한 명의 천재 코치가, 각 운동선수의 체형에 맞춰 훈련시킨 뒤 그 노하우를 모두 모아 더 완벽한 코칭 스타일을 만들어내는 과정과 같습니다.

이제 우리는 로봇 하나하나를 따로따로 가르치는 번거로움 없이, 하나의 지능으로 다양한 로봇 군단 (Fleet) 을 한 번에 통제할 수 있는 시대가 열렸습니다. 이는 앞으로 공장, 병원, 재난 현장 등에서 다양한 로봇들이 협력하여 일할 수 있는 기반을 마련해 줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

최근 강화학습 (RL) 을 기반으로 한 인간형 로봇 (Humanoid) 의 전신 제어 (Whole-Body Control, WBC) 는 뛰어난 성능을 보여주고 있으나, 다음과 같은 근본적인 한계가 존재합니다.

단일 로봇 종속성 (Single Embodiment Limitation): 대부분의 기존 정책은 특정 로봇의 동역학, 자유도 (DoF), 운동학적 토폴로지에 맞춰 훈련됩니다. 하드웨어 사양이 다른 새로운 로봇이 등장할 때마다 훈련 파이프라인과 보상 함수 튜닝을 처음부터 다시 시작해야 하므로 배포가 느립니다.
행동의 제한 (Limited Behaviors): 기존 교차-구현 (Cross-embodiment) 학습 방법들은 주로 저차원의 속도 명령 (이동 속도 등) 에만 초점을 맞추고 있으며, 쪼그려 앉기 (Squatting), 기울기 (Leaning) 와 같은 풍부한 전신 행동을 지원하는 데는 한계가 있습니다.
데이터 수집의 어려움: 조작 (Manipulation) 분야에서는 텔레오퍼레이션으로 데이터를 수집할 수 있지만, 다리가 있는 로봇의 경우 초기 제어기가 없으면 텔레오퍼레이션이 불가능하여 모방 학습 (Imitation Learning) 파이프라인이 막힙니다.

따라서, 서로 다른 하드웨어 사양을 가진 여러 인간형 로봇을 하나의 정책으로 제어하면서도, 걷기뿐만 아니라 다양한 전신 행동을 수행할 수 있는 범용 (Generalist) 정책을 만드는 것이 핵심 과제입니다.

2. 방법론 (Methodology: EAGLE)

저자들은 EAGLE(Embodiment-Aware Generalist Specialist Distillation) 이라는 반복적인 일반화 - 전문화 (Generalist-Specialist) 증류 프레임워크를 제안합니다.

가. 통합 명령 및 관찰 공간 (Unified Command & Observation Space)

고차원 명령 인터페이스: 걷기뿐만 아니라 다양한 행동을 지원하기 위해 5 차원 명령 벡터 $c_t = [v_x, v_y, \omega, h, p]$ $c_{t} = [v_{x}, v_{y}, ω, h, p]$ 를 설계합니다.
- $v_x, v_y, \omega$ : 기저 프레임의 선형 및 각속도 (작업 명령).
- $h, p$ : 기저 높이 (Base Height) 및 몸체 피치 (Body Pitch) (행동 명령: 쪼그려 앉기, 기울기 등).
구현체 인식 관찰 (Embodiment-Aware Observation):
- 로봇의 고유한 형태 (Morphology) 를 인식할 수 있도록, 크기가 다른 로봇들을 통일된 관찰/행동 공간에 매핑합니다 (제로 패딩 및 고정 인덱스 매핑 사용).
- 크리틱 (Critic) 에게 특권 정보: 각 로봇의 질량, 질량 중심 (CoM), 관성 행렬 등 물리적 특성을 포함하는 '구현체 인식 관찰 ( $o_{ea}$ )'을 제공합니다.
- 액터 (Actor) 의 학습: 액터 네트워크가 이 구현체 정보를 추론하도록 하여, 서로 다른 로봇 간의 차이를 학습하게 합니다.

나. 구현체 정렬 (Embodiment Alignment)

서로 다른 DoF 수와 관절 구성을 가진 로봇들을 하나의 신경망으로 공유하기 위해, 모든 로봇의 동작을 통일된 길이 (예: 32) 의 벡터로 패딩하고, 특정 관절을 고정된 글로벌 인덱스에 매핑하는 변환 행렬을 사용합니다.

다. 일반화 - 전문화 증류 루프 (Generalist-Specialist Distillation Loop)

EAGLE 의 핵심은 다음 두 단계를 반복하는 루프입니다:

전문화 (Specialize): 현재 일반 정책 ( $\pi_g$ ) 을 복사하여 각 로봇별 전문 정책 ( $\pi_{s_i}$ ) 을 생성하고, 해당 로봇에서만 미세 조정 (Fine-tuning) 합니다.
일반화 (Generalize): 일반 정책 ( $\pi_g$ $π_{g}$ ) 으로 트래젝토리를 수집한 후, 해당 로봇의 전문 정책이 제안한 행동을 레이블 (Relabel) 로 사용하여 $\pi_g$ $π_{g}$ 를 업데이트합니다.
- 증류 손실 함수: 기존 DAgger 방식의 행동 분포 일치 ( $L_a$ ) 에 더해, **표현 공간 (Representation Space) 의 정렬 손실 ( $L_e$ )**을 추가합니다. 이는 일반 정책과 전문 정책이 은닉층 특징 (Hidden features) 에서도 일관된 표현을 학습하도록 유도합니다.
- 최종 손실 함수: $L = L_{PPO} + \alpha L_a + \beta L_e$

3. 주요 기여 (Key Contributions)

구현체 인식 증류 루프: 로봇별 보상 함수 튜닝 없이 이질적인 인간형 로봇들을 하나의 통합된 전신 제어 정책으로 제어할 수 있는 프레임워크를 제안했습니다.
고차원 통합 명령 인터페이스: 단순한 걷기를 넘어, 쪼그려 앉기, 기울기, 기저 높이 조절 등 풍부한 전신 행동을 지원하는 단일 정책을 구현했습니다.
광범위한 실증: 5 가지 다른 로봇 (Unitree H1, G1, Booster T1, Fourier N1, PNDbotics Adam) 에 대한 시뮬레이션 실험과 4 가지 로봇에 대한 실제 세계 (Real-world) 제로샷 (Zero-shot) 배포를 통해 방법론의 유효성을 입증했습니다.

4. 실험 결과 (Results)

명령 추적 정확도: EAGLE 은 기존 PPO(모든 로봇을 함께 훈련) 및 다른 교차-구현 방법 (COMPASS, Kickstarting) 보다 모든 로봇에서 명령 추적 오차 (Linear/Angular velocity, Height, Pitch) 가 현저히 낮았습니다.
- 특히 Kickstarting 은 특정 로봇 (예: G1, T1) 에서 불안정해졌으나, EAGLE 은 모든 로봇에서 안정적으로 성능을 발휘했습니다.
반복 증류의 효과: 단일 증류 단계보다 '전문화 - 일반화' 루프를 수렴할 때까지 반복하는 것 (EAGLE w/ ID) 이 전반적인 성능을 더욱 향상시켰습니다.
단일 로봇 대비 성능: 교차-구현 학습을 통해 얻은 일반 정책 (Generalist) 은 특정 로봇 전용으로 훈련된 정책과 유사한 성능을 냈으며, 전문화된 정책 (Specialist) 은 오히려 단일 로봇 전용 정책보다 더 좋은 성능을 기록하기도 했습니다.
표현 학습 분석: t-SNE 시각화 결과, 구현체 인식 관찰을 사용하는 EAGLE 은 서로 다른 로봇들을 명확하게 분리된 클러스터로 학습시키는 반면, 이를 사용하지 않은 경우 로봇들이 중첩되는 것을 확인했습니다.
실제 세계 적용 (Sim2Real): 훈련된 정책을 별도의 추가 튜닝 없이 (Zero-shot) Unitree H1, G1, Fourier N1, Booster T1 등 4 가지 실제 로봇에 적용하여 걷기, 기울기, 쪼그려 앉기 등의 행동을 성공적으로 수행했습니다.

5. 의의 및 결론 (Significance)

이 연구는 인간형 로봇 제어 분야에서 **확장성 (Scalability)**과 **범용성 (Generality)**을 동시에 달성하는 중요한 진전을 이루었습니다.

플릿 레벨 제어 (Fleet-level Control): 다양한 하드웨어 사양을 가진 로봇 군 (Fleet) 을 단일 정책으로 관리할 수 있어, 로봇 개발 및 배포 비용을 획기적으로 줄일 수 있습니다.
복잡한 행동 지원: 단순한 이동뿐만 아니라 복잡한 전신 동작을 하나의 모델로 통합하여 제어할 수 있음을 증명했습니다.
미래 전망: 이 프레임워크는 향후 더 다양한 로봇 구조에 대한 일반화를 위해 URDF 무작위화 (URDF Randomization) 와 결합하거나, 더 세밀한 형태학적 기술자를 학습 공간에 포함시키는 방향으로 발전할 수 있습니다.

결론적으로 EAGLE은 이질적인 인간형 로봇들을 위한 단일, 강력하며 풍부한 행동을 수행할 수 있는 전신 제어기의 표준을 제시하는 획기적인 연구입니다.