Cross-Hand Latent Representation for Vision-Language-Action Models

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"로봇 손이 서로 다른 모양을 가져도, 하나의 '보편적인 언어'로 모든 일을 잘하게 만드는 방법"**을 소개합니다.

기존의 로봇 연구는 "로봇 A 를 위한 뇌"와 "로봇 B 를 위한 뇌"를 따로 만들어야 했습니다. 하지만 이 논문 (XL-VLA) 은 **모든 로봇 손이 공유할 수 있는 '잠재적 행동 공간 (Latent Action Space)'**이라는 새로운 개념을 제안합니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.

🎭 비유: "모든 배우를 위한 '보편적인 연기 지도'"

상상해 보세요. 무대 위에 다양한 체형의 배우들이 있습니다.

배우 A: 키가 크고 손이 긴 사람 (예: Ability Hand)
배우 B: 키가 작고 손가락이 짧은 사람 (예: Inspire Hand)
배우 C: 손가락이 4 개뿐인 사람 (예: Paxini Hand)

❌ 기존 방식 (기존 VLA 모델)

기존에는 감독이 배우 A 에게 "손을 들어라"라고 하면, A 는 자신의 긴 팔로 손을 듭니다. 하지만 이 지시를 배우 B 에게 그대로 전달하면, B 는 자신의 짧은 팔로 똑같은 동작을 하려다 넘어지거나 실패합니다.
즉, 각 배우 (로봇) 마다 따로따로 연기를 가르쳐야 (데이터를 따로 수집해야) 했습니다. 새로운 배우가 등장할 때마다 다시 1 년씩 훈련시키는 셈이죠.

✅ 이 논문의 방식 (XL-VLA)

이 연구팀은 **"모든 배우가 이해할 수 있는 '보편적인 연기 지도 (잠재 행동 공간)'"**를 만들었습니다.

보편적인 지도 (잠재 행동 공간):
감독은 더 이상 "팔을 30 도 들어라" 같은 구체적인 지시를 하지 않습니다. 대신 **"사과를 잡는 느낌"**이나 **"컵을 들어 올리는 의도"**라는 추상적인 감정 (잠재 벡터) 만 전달합니다.
- 이 '감정'은 키가 크든 작든, 손가락이 많든 적든 모두가 공유하는 공통 언어입니다.
각자의 해석 (디코더):
- 배우 A 는 "사과 잡는 느낌"을 받으면, 자신의 긴 팔로 사과를 잡습니다.
- 배우 B 는 같은 "사과 잡는 느낌"을 받으면, 자신의 짧은 팔로 사과를 잡습니다.
- 배우 C 는 손가락이 하나 적어도, 그 느낌에 맞춰 가장 가까운 손가락으로 사과를 잡습니다.
결과:
한 번에 배우 A, B, C 모두에게 동시에 연기를 가르칠 수 있게 되었습니다. 그리고 새로운 배우 D가 무대에 등장해도, 그 배우에게만 맞는 '해석 방법'만 추가하면 바로 무대에 설 수 있습니다.

🔑 이 기술의 핵심 3 가지

1. "모든 로봇 손의 공통 분모 찾기"

로봇 손마다 관절 (Joint) 이 다릅니다. 5 개일 수도, 12 개일 수도 있습니다. 이 논문은 이 복잡한 숫자들을 하나의 '의미 있는 숫자 (잠재 코드)'로 압축했습니다. 마치 영어, 한국어, 프랑스어를 모두 이해할 수 있는 '우주어'를 만든 것과 같습니다.

2. "데이터의 대박" (200 만 개의 행동)

저자들은 4 가지 서로 다른 로봇 손 (Ability, Inspire, Paxini, X-Hand) 으로 10 가지 다양한 작업 (과일 준비, 캔 정리, 병 건네기 등) 을 수행하는 200 만 개의 데이터를 모았습니다.

기존: 로봇 하나당 데이터를 따로따로 모아야 함 (비쌈, 느림).
이 논문: 모든 로봇의 데이터를 섞어서 한 번에 학습함 (효율적, 빠름).

3. "보이지 않는 능력 (Zero-Shot)"

가장 놀라운 점은 아직 본 적 없는 로봇이나 작업에도 바로 적응한다는 것입니다.

예를 들어, "과일 정리"만 배운 로봇에게 "캔 정리"를 시키면, 기존 로봇은 당황하지만 이 기술은 **"캔을 정리하는 느낌"**을 유추해서 바로 해냅니다.
마치 음악을 처음 보는 사람이라도 악보 (잠재 행동) 를 보고 바로 연주할 수 있는 것과 같습니다.

📊 실험 결과: 얼마나 잘할까요?

논문의 실험 결과를 보면, 이 방식이 얼마나 강력한지 알 수 있습니다.

기존 방식 (π0): 로봇 손마다 성능이 들쑥날쑥했습니다. 평균 성공률 약 32%.
이 논문 (XL-VLA): 모든 로봇 손에서 성공률이 **72%**까지 급상승했습니다.
- 특히 손가락을 많이 움직여야 하는 정교한 작업 (캔 분류, 병 건네기) 에서 기존 방식보다 훨씬 잘했습니다.
- 새로운 로봇이 등장해도 재학습 없이 바로 사용 가능한 '제로샷 (Zero-shot)' 능력을 입증했습니다.

💡 결론: 왜 이것이 중요한가요?

이 기술은 **"로봇의 몸 (하드웨어) 이 변해도, 로봇의 두뇌 (소프트웨어) 는 그대로 쓸 수 있다"**는 것을 증명했습니다.

지금까지 로봇을 개발할 때마다 새로운 하드웨어에 맞춰 데이터를 다시 모으고 훈련시켰다면, 이제는 하나의 '보편적인 두뇌'를 만들어두고, 새로운 로봇 손만 끼워주면 바로 작동하는 시대가 왔습니다.

이는 마치 스마트폰 앱처럼, 어떤 기종 (로봇 손) 이든 같은 앱 (VLA 모델) 이 돌아가는 세상을 만드는 첫걸음입니다. 앞으로 더 다양한 형태의 로봇 손이 개발되더라도, 우리는 그 때마다 새로운 AI 를 만들지 않아도 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경: 현실 세계의 로봇 자율성을 위해서는 인간의 손과 같은 정교한 조작 (Dexterous Manipulation) 능력이 필수적입니다. 최근 비전 - 언어 - 행동 (VLA) 모델이 로봇 제어에 적용되면서, 로봇이 시각적 장면과 언어 지시를 이해하고 복잡한 행동을 수행하는 데 성공하고 있습니다.
문제점:
- 이종 로봇체 (Embodiment) 의 다양성: 다양한 정교한 손 (Dexterous Hands) 이 빠르게 등장하고 있지만, 각 로봇의 관절 구조, 구동 방식, 운동학 (Kinematics) 이 크게 다릅니다.
- 데이터 수집의 비효율성: 새로운 로봇 체형마다 대규모 시연 데이터를 수집하는 것은 비용이 많이 들고 비현실적입니다.
- 공통 행동 공간의 부재: 기존 VLA 모델은 주로 특정 로봇의 관절 공간 (Joint Space) 에 종속되어 있어, 다른 로봇으로의 제로샷 (Zero-shot) 전이가 어렵습니다. 언어는 보편적이지만, 로봇의 행동 공간은 형태에 따라 달라지는 것이 핵심 장애물입니다.

2. 제안 방법론: XL-VLA (Methodology)

저자들은 XL-VLA를 제안하며, 이는 다양한 정교한 손에 공유되는 **통일된 잠재 행동 공간 (Unified Latent Action Space)**을 기반으로 합니다.

핵심 아이디어:
- 각 로봇의 고유한 관절 좌표계 대신, 모든 손에 공통적으로 적용 가능한 **잠재 행동 (Latent Action)**을 학습합니다.
- 이 잠재 공간은 로봇의 형태 (Embodiment) 에 무관 (Embodiment-invariant) 하여, 서로 다른 손 간에 행동 패턴을 매핑할 수 있게 합니다.
시스템 아키텍처:
1. 잠재 인코더/디코더 (Latent Autoencoder):
  - 각 손 ( $h$ ) 에 대해 전용 인코더 ( $E_h$ ) 와 디코더 ( $D_h$ ) 를 학습합니다.
  - 인코더: 특정 손의 관절 위치 ( $q^{(h)}$ ) 를 공통 잠재 벡터 ( $z$ ) 로 매핑합니다.
  - 디코더: 잠재 벡터 ( $z$ ) 를 해당 손의 관절 명령 ( $\hat{q}^{(h)}$ ) 으로 복원합니다.
  - 학습 손실 함수:
    - 재구성 손실 ( $L_1$ ): 입력과 재구성된 관절 위치의 오차 최소화.
    - 리타게팅 손실 ( $L_2$ ): 서로 다른 손 간의 손가락 끝 (Fingertip) 기하학적 정렬을 유도합니다. 미분 가능한 순방향 운동학 (FK) 을 사용하여 엄지와 다른 손가락 사이의 핀치 (Pinch) 거리와 방향을 일치시킵니다.
    - 잠재 정규화 손실 ( $L_3$ ): 잠재 공간이 매끄러운 가우시안 분포를 따르도록 하여 샘플링과 보간을 용이하게 합니다.
2. VLA 백본 (Vision-Language-Action Backbone):
  - 기존 VLA 모델 (π0 기반) 을 활용하되, 상태 토큰 대신 학습된 **잠재 행동 토큰 ( $z$ )**을 입력으로 사용합니다.
  - 비전 (Vision) 과 언어 (Language) 인코더는 고정된 상태에서, 액션 전문가 (Action Expert) 만 미세 조정 (Fine-tuning) 됩니다.
  - 학습 시에는 모든 잠재 인코더/디코더를 고정 (Frozen) 하고, VLA 가 잠재 공간 내에서 행동을 예측하도록 합니다.

3. 주요 기여 (Key Contributions)

대규모 이종 데이터셋 구축: Ability, Paxini DexH13, X-Hand1, Inspire 등 4 가지 새로운 정교한 손을 대상으로 10 가지 조작 태스크를 수행한 200 만 개의 상태 - 행동 쌍으로 구성된 텔레로페이션 (Teleoperation) 데이터셋을 수집했습니다.
비지도 잠재 행동 공간 프레임워크: 특정 로봇에 의존하지 않고 다양한 손에 적용 가능한 통일된 행동 공간을 학습하는 비지도 오토인코더 프레임워크를 제안했습니다.
XL-VLA 모델: 위 잠재 공간을 기반으로 한 완전한 VLA 파이프라인을 구현하여, 단일 정책으로 여러 로봇을 제어하고 새로운 로봇 - 태스크 조합에 제로샷으로 일반화되는 것을 입증했습니다.

4. 실험 결과 (Results)

실험 설정: 4 가지 손 (Ability, Inspire, Paxini, X-Hand) 과 Unitree G1 휴머노이드, xArm7 등을 사용하여 실제 환경에서 평가했습니다.
성능 비교 (Baseline vs. XL-VLA):
- 기존 VLA (π0): 다양한 로봇을 하나의 정책으로 학습하려 했으나, 운동학적 차이로 인해 성능이 낮고 불일치했습니다 (평균 성공률 0.32).
- XL-VLA: 잠재 공간을 통해 일관된 성능 향상을 보였습니다. 평균 성공률이 0.32 에서 0.72 로 약 40% 상승했습니다.
  - Ability Hand: 0.37 $\rightarrow$ 0.73
  - Paxini Hand: 0.35 $\rightarrow$ 0.78 (가장 높은 성능)
  - X-Hand (가장 구조가 다름): 0.29 $\rightarrow$ 0.70
제로샷 일반화 (Zero-shot Generalization):
- 학습 데이터에서 제외된 태스크 (Unseen Tasks) 에 대해, 학습된 잠재 공간은 추가 학습 없이도 새로운 손 - 태스크 조합에서 높은 성공률을 보였습니다.
- 기존 운동학적 리타게팅 (Kinematic Retargeting) 기반 방법보다 정교한 조작 태스크 (예: 병 전달, 상자 재배치) 에서 월등히 우수한 성능을 발휘했습니다.
비교 실험:
- LAD (Latent Action Diffusion) 와 비교: XL-VLA 는 지도 학습 데이터 없이도 LAD 보다 훨씬 높은 재현 성공률 (Replay Success Rate) 을 기록했습니다.
- 교차 로봇 데이터: xArm(테이블탑) 과 G1(휴머노이드) 데이터를 함께 학습했을 때, 잠재 공간 기반 학습이 원시 행동 공간 학습보다 성능이 뛰어났습니다.

5. 의의 및 결론 (Significance)

확장 가능한 로봇 학습: 새로운 로봇 하드웨어가 등장할 때마다 데이터를 다시 수집하거나 모델을 재학습할 필요 없이, 플러그 앤 플레이 (Plug-and-play) 방식으로 새로운 손에 적용할 수 있는 체계를 제시했습니다.
데이터 효율성: 잠재 행동 공간을 통해 이종 로봇 간의 데이터를 공유하고 재사용함으로써, 데이터 수집 비용을 크게 절감하면서도 고성능을 달성했습니다.
미래 전망: 하드웨어 혁신 속도에 맞춰 로봇 조작 시스템을 유연하게 적응시킬 수 있는 기반을 마련하여, 보다 일반화되고 적응적인 로봇 제어 프레임워크의 중요한 한 걸음으로 평가됩니다.

요약하자면, XL-VLA 는 서로 다른 형태의 정교한 로봇 손들이 공유할 수 있는 '보편적인 행동 언어 (잠재 공간)'를 학습함으로써, 데이터 부족과 하드웨어 다양성이라는 로봇 학습의 핵심 난제를 해결한 획기적인 접근법입니다.