Embedding Morphology into Transformers for Cross-Robot Policy Learning

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"로봇이 서로 다른 몸매를 가졌을 때도 똑똑하게 일할 수 있게 하는 새로운 방법"**에 대해 설명합니다.

기존의 로봇 학습 방식은 마치 **"모든 로봇에게 똑같은 두뇌만 심어주고, 몸이 어떻게 생겼는지 직접 눈으로 보고 추측하게 하는 것"**과 비슷했습니다. 하지만 로봇의 몸 (팔 길이, 관절 개수, 손가락 모양 등) 이 다르면 이 방식은 잘 작동하지 않았습니다.

이 연구는 **"로봇의 몸 구조 (형태) 를 두뇌에 미리 알려주는 3 가지 비법"**을 제안합니다. 이를 쉽게 비유해서 설명해 드릴게요.

🤖 핵심 아이디어: "로봇의 몸매를 두뇌에 심어주자!"

기존의 거대 인공지능 (Transformer) 모델은 로봇이 어떤 모양인지 모른 채, 오직 카메라로 본 영상과 언어 지시만 보고 "어떻게 팔을 움직일까?"를 추측해야 했습니다. 이는 마치 눈이 가린 상태에서 낯선 사람의 손가락 개수를 맞추는 것처럼 어렵고 비효율적입니다.

저자들은 이 문제를 해결하기 위해 로봇의 **관절 구조 (형태)**를 두 가지 방식으로 두뇌에 주입했습니다.

1. "관절별 메모장" (Kinematic Tokens)

비유: 기존 방식은 로봇의 모든 팔 동작을 "한 번에 뭉쳐서" 기억했습니다. 마치 "오전 10 시부터 11 시까지 한 시간 동안 한 일"을 통째로 기억하는 거죠.
새로운 방식: 각 관절 (어깨, 팔꿈치, 손목 등) 마다 작은 메모장을 하나씩 만들어줍니다. 그리고 시간도 잘게 쪼개서, "어깨는 1 초 동안 이렇게 움직였고, 손목은 그다음 1 초 동안 저렇게 움직였다"는 식으로 관절별로 정리된 정보를 제공합니다.
효과: 로봇이 자신의 몸 각 부위가 어떻게 움직이는지 훨씬 명확하게 이해하게 됩니다.

2. "연결된 친구들만 대화하게 하기" (Topology-aware Attention)

비유: 기존 두뇌는 모든 관절이 서로 아무 때나 대화할 수 있었습니다. (예: "손가락"이 "어깨"에게 직접 말을 거는 것). 하지만 실제 로봇은 관절끼리 물리적으로 연결된 순서대로만 정보가 전달됩니다.
새로운 방식: 두뇌의 대화 규칙을 바꿉니다. **"물리적으로 연결된 관절끼리만 먼저 대화하고, 필요한 경우에만 멀리 있는 관절과 대화하라"**는 규칙을 세웁니다.
- 하드 마스크 (Hard Mask): 연결된 친구 (1 단계 이웃) 와만 대화하게 강제로 제한합니다.
- 믹스 마스크 (Mix Mask): 가끔은 연결된 친구끼리만 대화하다가, 가끔은 전체가 모여서 대화하는 시간을 가집니다. (이 방식이 가장 효과적이었습니다.)
효과: 로봇이 자신의 몸 구조를 자연스럽게 이해하게 되어, 엉뚱한 동작을 하거나 넘어지는 일이 줄어듭니다.

3. "관절의 성격을 알려주는 명찰" (Joint-attribute Conditioning)

비유: 단순히 "이 관절은 저 관절과 연결되어 있다"는 정보만으로는 부족합니다. "이 관절은 회전하는 거야", "이 관절은 직선으로 움직이는 거야", "이 관절은 무거운 물건을 들 수 있어"라는 성격 정보도 필요합니다.
새로운 방식: 각 관절에 **성격 명찰 (데이터)**을 붙여줍니다. (예: 회전 관절인지, 직선 관절인지, 움직일 수 있는 범위 등). 두뇌가 이 명찰을 보고 "아, 이 관절은 회전하는 거구나, 회전하는 방식으로 명령을 내려야겠다"라고 판단하게 합니다.
효과: 몸의 구조뿐만 아니라 각 부위의 기능적 역할까지 정확히 파악하게 됩니다.

🏆 실험 결과: 얼마나 잘했을까?

연구진은 이 방법을 다양한 로봇 (프랑카 판다 팔, 유니트리의 G1 로봇 등) 에 적용해 보았습니다.

한 로봇만 다룰 때: 기존 방식보다 성공률이 크게 향상되었습니다. 특히 복잡한 작업 (컵에 컵을 넣기, 바나나를 통에 넣기 등) 에서 효과가 두드러졌습니다.
여러 로봇을 섞어서 다룰 때: 서로 다른 몸매를 가진 로봇 두 대를 동시에 가르쳤을 때도, 기존 방식은 혼란을 겪었지만 이 새로운 방법은 두 로봇 모두를 잘 가르칠 수 있었습니다.

💡 결론

이 논문은 **"로봇에게 몸의 구조를 가르쳐주면, 로봇은 훨씬 더 똑똑하고 튼튼해진다"**는 것을 증명했습니다.

마치 사람이 자신의 몸 (팔, 다리, 손가락) 을 어떻게 움직여야 하는지 본능적으로 알고 있듯이, 로봇도 자신의 몸 구조를 알고 있으면 새로운 환경이나 다른 몸매의 로봇으로 넘어갈 때도 훨씬 쉽게 적응할 수 있다는 것입니다. 이는 앞으로 다양한 로봇이 한두 가지 작업만 하는 게 아니라, 어떤 로봇이든 다양한 일을 척척 해내는 '범용 로봇'을 만드는 데 큰 디딤돌이 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

로봇 학습 분야에서 **'크로스 - 로봇 정책 학습 (Cross-robot policy learning)'**은 단일 정책이 다양한 로봇의 신체 구조 (Embodiment) 에서 모두 잘 작동하도록 학습하는 것을 목표로 합니다. 그러나 현재 주류인 비전 - 언어 - 행동 (VLA, Vision-Language-Action) 모델 기반의 트랜스포머 정책들은 대부분 **신체 구조에 무관 (Embodiment-agnostic)**하게 설계되어 있습니다.

핵심 한계: 이러한 모델들은 관찰 데이터 (Observations) 만으로부터 운동학 구조 (Kinematic structure) 와 관절 간 협응을 암묵적으로 추론해야 합니다.
결과: 이는 다양한 로봇 플랫폼 간 전이 학습의 어려움을 가중시키고, 단일 로봇 내에서도 강건성과 성능을 제한합니다.
기존 접근법의 부족: 기존 연구들은 그래프 신경망 (GNN) 이나 토폴로지 인식 어텐션을 사용했으나, 최신 VLA 모델 (예: $\pi0.5$ ) 의 토큰 인터페이스에 적용하기 어렵거나, 국소적/전역적 정보 교환의 균형 문제, 그리고 관절의 기능적 의미 (Semantics) 를 반영하지 못하는 등의 한계가 있었습니다.

2. 제안 방법론 (Methodology)

저자들은 로봇의 형태론 (Morphology) 을 명시적인 귀납적 편향 (Inductive Bias) 으로 트랜스포머 정책 아키텍처에 주입하는 신체 구조 인식 (Embodiment-aware) 트랜스포머 정책을 제안합니다. 이는 다음 세 가지 핵심 메커니즘으로 구성됩니다.

(1) 운동학 토큰 (Kinematic Tokens, KT)

목적: VLA 의 표준 행동 토큰이 모든 관절을 하나의 임베딩으로 압축하는 방식의 한계를 극복하기 위해, 관절별 (Joint-wise) 행동 표현을 제공합니다.
구현: 시간 축을 $G$ 개의 청크 (Chunk) 로 나누고, 각 관절 $j$ 와 각 청크 $k$ 에 대해 행동 벡터를 연결하여 '운동학 토큰'을 생성합니다.
효과: 이는 시간적 구조를 압축하면서도 관절 간의 공간적 (Cross-joint) 구조를 강조하여, 토폴로지 및 의미론적 임베딩이 가능하도록 합니다.

(2) 토폴로지 인식 어텐션 편향 (Topology-aware Attention Bias)

목적: 로봇의 운동학 그래프 (Kinematic Graph) 구조를 어텐션 메커니즘에 반영하여, 물리적으로 연결된 관절 간의 정보 전달을 촉진합니다.
구현:
- 하드 마스크 (Hard-Mask): 인접한 관절 (1-hop) 에만 어텐션을 허용하거나, 마스크된 레이어와 전 연결 (Global) 레이어를 번갈아 적용하는 Mix-Mask 방식을 사용합니다.
- 소프트 마스크 (Soft-Mask): 최단 경로 거리 (Shortest-path distance) 에 기반한 학습 가능한 편향 (Bias) 을 어텐션 로짓에 추가하여, 연결된 관절에 더 높은 가중치를 부여하되 모든 경로를 완전히 차단하지는 않습니다.
전략: Mix-Mask(로컬/글로벌 균형) 가 Full-Mask(과도한 국소화) 나 Soft-Mask(최적화 불안정성) 보다 우수한 성능을 보였습니다.

(3) 관절 속성 조건부 학습 (Joint-attribute Conditioning)

목적: 단순한 연결성 (Connectivity) 이상으로 각 관절의 기능적 역할 (예: 회전/이동 관절, 운동 범위, 마찰 계수 등) 을 반영합니다.
구현: 각 관절에 대한 기술자 (Descriptor) 를 생성하고, 이를 **FiLM (Feature-wise Linear Modulation)**을 사용하여 운동학 토큰 임베딩에 스케일과 시프트를 적용합니다.
효과: 동일한 토폴로지를 가진 관절이라도 기능적 역할이 다를 수 있음을 모델이 구분하도록 도와줍니다.

3. 주요 기여 (Key Contributions)

구조화된 형태론 임베딩: VLA 정책의 행동 헤더에 운동학 토큰, 토폴로지 어텐션 편향, 관절 속성 조건부 학습을 통합한 새로운 아키텍처를 제안했습니다.
범용성 입증: 단일 로봇 환경 (DROID/Franka Panda, Unitree G1 Dex1) 과 다중 로봇 환경 (Panda + SO101 혼합 학습) 에서 모두 기존 $\pi0.5$ 베이스라인 대비 성공률 (Success Rate) 을 크게 향상시켰습니다.
성능 분석:
- 운동학 토큰만 추가해도 성능이 향상됨.
- Mix-Mask 방식이 국소적 정보 전달과 전역적 조율 사이의 최적 균형을 제공함.
- 관절 속성 (FiLM) 이 추가될 때 가장 큰 성능 향상이 관찰됨.

4. 실험 결과 (Results)

실험은 DROID (Franka Panda), Unitree G1 Dex1, SO101 세 가지 로봇 플랫폼에서 수행되었습니다.

단일 로봇 평가 (Single-embodiment):
- DROID (Panda): 베이스라인 ( $\pi0.5$ ) 의 평균 성공률 19.7% 대비, 제안된 모든 구성 요소 (KT + Mix-Mask + FiLM) 를 적용한 모델은 **47.4%**의 성공률을 기록했습니다. 특히 작업 2 와 3 에서 성공률이 5 배 이상 향상되었습니다.
- Unitree G1 Dex1: 16 자유도 (DoF) 환경에서도 동일한 구성 요소가 유효하여, 베이스라인 대비 **28.0%**의 성공률을 달성했습니다.
다중 로봇 평가 (Multi-embodiment):
- Panda 와 SO101 데이터를 혼합하여 학습했을 때, 제안된 모델은 학습 전반에 걸쳐 베이스라인보다 높은 Macro 성공률을 보였습니다 (예: 125k 스텝 시 20.7% vs 17.5%). 이는 모델이 서로 다른 운동학 구조를 효과적으로 일반화하고 있음을 시사합니다.
Ablation Study:
- 시간 청크 크기 ( $G=1$ ) 가 가장 성능이 좋았습니다.
- 보조 운동학 토큰 (Auxiliary Kinematic Tokens) 을 추가하면 성능이 추가적으로 향상되었습니다.
- Soft-Mask 방식은 최적화 불안정성으로 인해 Hard-Mask 계열 (Mix-Mask) 보다 낮은 성능을 보였습니다.

5. 의의 및 결론 (Significance & Conclusion)

이 논문은 로봇 학습 분야에서 신체 구조 (Embodiment) 를 명시적으로 모델 아키텍처에 통합함으로써, 크로스 - 로봇 정책 학습의 핵심 난제를 해결하는 중요한 진전을 이루었습니다.

기술적 의의: VLA 모델이 단순히 데이터에서 운동학을 추론하는 것을 넘어, 물리적 구조를 귀납적 편향으로 활용함으로써 **강건성 (Robustness)**과 일반화 능력을 동시에 향상시킬 수 있음을 입증했습니다.
미래 전망: 이 연구는 다양한 로봇 플랫폼에 즉시 적용 가능한 범용 로봇 정책 (Generalist Robot Policy) 개발의 기반을 마련하며, 인간 지능과 유사한 유연성을 가진 로봇 시스템 실현을 위한 중요한 단계로 평가됩니다.

요약하자면, 이 논문은 **"로봇의 몸체 구조를 알고리즘에 명시적으로 주입하면, 다양한 로봇에서 더 잘 작동하고 더 강건한 AI 정책 학습이 가능하다"**는 것을 체계적으로 증명했습니다.