Cross-Hand Latent Representation for Vision-Language-Action Models

이 논문은 다양한 다관절 로봇 손 간의 확장 가능한 학습을 가능하게 하기 위해 표준 비전 - 언어 - 행동 (VLA) 아키텍처에 통합된 일관된 잠재 행동 공간을 제안하는 'XL-VLA' 프레임워크를 소개합니다.

Guangqi Jiang, Yutong Liang, Jianglong Ye, Jia-Yang Huang, Changwei Jing, Rocky Duan, Pieter Abbeel, Xiaolong Wang, Xueyan Zou

게시일 2026-03-12
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"로봇 손이 서로 다른 모양을 가져도, 하나의 '보편적인 언어'로 모든 일을 잘하게 만드는 방법"**을 소개합니다.

기존의 로봇 연구는 "로봇 A 를 위한 뇌"와 "로봇 B 를 위한 뇌"를 따로 만들어야 했습니다. 하지만 이 논문 (XL-VLA) 은 **모든 로봇 손이 공유할 수 있는 '잠재적 행동 공간 (Latent Action Space)'**이라는 새로운 개념을 제안합니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.


🎭 비유: "모든 배우를 위한 '보편적인 연기 지도'"

상상해 보세요. 무대 위에 다양한 체형의 배우들이 있습니다.

  • 배우 A: 키가 크고 손이 긴 사람 (예: Ability Hand)
  • 배우 B: 키가 작고 손가락이 짧은 사람 (예: Inspire Hand)
  • 배우 C: 손가락이 4 개뿐인 사람 (예: Paxini Hand)

❌ 기존 방식 (기존 VLA 모델)

기존에는 감독이 배우 A 에게 "손을 들어라"라고 하면, A 는 자신의 긴 팔로 손을 듭니다. 하지만 이 지시를 배우 B 에게 그대로 전달하면, B 는 자신의 짧은 팔로 똑같은 동작을 하려다 넘어지거나 실패합니다.
즉, 각 배우 (로봇) 마다 따로따로 연기를 가르쳐야 (데이터를 따로 수집해야) 했습니다. 새로운 배우가 등장할 때마다 다시 1 년씩 훈련시키는 셈이죠.

✅ 이 논문의 방식 (XL-VLA)

이 연구팀은 **"모든 배우가 이해할 수 있는 '보편적인 연기 지도 (잠재 행동 공간)'"**를 만들었습니다.

  1. 보편적인 지도 (잠재 행동 공간):
    감독은 더 이상 "팔을 30 도 들어라" 같은 구체적인 지시를 하지 않습니다. 대신 **"사과를 잡는 느낌"**이나 **"컵을 들어 올리는 의도"**라는 추상적인 감정 (잠재 벡터) 만 전달합니다.

    • 이 '감정'은 키가 크든 작든, 손가락이 많든 적든 모두가 공유하는 공통 언어입니다.
  2. 각자의 해석 (디코더):

    • 배우 A 는 "사과 잡는 느낌"을 받으면, 자신의 긴 팔로 사과를 잡습니다.
    • 배우 B 는 같은 "사과 잡는 느낌"을 받으면, 자신의 짧은 팔로 사과를 잡습니다.
    • 배우 C 는 손가락이 하나 적어도, 그 느낌에 맞춰 가장 가까운 손가락으로 사과를 잡습니다.
  3. 결과:
    한 번에 배우 A, B, C 모두에게 동시에 연기를 가르칠 수 있게 되었습니다. 그리고 새로운 배우 D가 무대에 등장해도, 그 배우에게만 맞는 '해석 방법'만 추가하면 바로 무대에 설 수 있습니다.


🔑 이 기술의 핵심 3 가지

1. "모든 로봇 손의 공통 분모 찾기"

로봇 손마다 관절 (Joint) 이 다릅니다. 5 개일 수도, 12 개일 수도 있습니다. 이 논문은 이 복잡한 숫자들을 하나의 '의미 있는 숫자 (잠재 코드)'로 압축했습니다. 마치 영어, 한국어, 프랑스어를 모두 이해할 수 있는 '우주어'를 만든 것과 같습니다.

2. "데이터의 대박" (200 만 개의 행동)

저자들은 4 가지 서로 다른 로봇 손 (Ability, Inspire, Paxini, X-Hand) 으로 10 가지 다양한 작업 (과일 준비, 캔 정리, 병 건네기 등) 을 수행하는 200 만 개의 데이터를 모았습니다.

  • 기존: 로봇 하나당 데이터를 따로따로 모아야 함 (비쌈, 느림).
  • 이 논문: 모든 로봇의 데이터를 섞어서 한 번에 학습함 (효율적, 빠름).

3. "보이지 않는 능력 (Zero-Shot)"

가장 놀라운 점은 아직 본 적 없는 로봇이나 작업에도 바로 적응한다는 것입니다.

  • 예를 들어, "과일 정리"만 배운 로봇에게 "캔 정리"를 시키면, 기존 로봇은 당황하지만 이 기술은 **"캔을 정리하는 느낌"**을 유추해서 바로 해냅니다.
  • 마치 음악을 처음 보는 사람이라도 악보 (잠재 행동) 를 보고 바로 연주할 수 있는 것과 같습니다.

📊 실험 결과: 얼마나 잘할까요?

논문의 실험 결과를 보면, 이 방식이 얼마나 강력한지 알 수 있습니다.

  • 기존 방식 (π0): 로봇 손마다 성능이 들쑥날쑥했습니다. 평균 성공률 약 32%.
  • 이 논문 (XL-VLA): 모든 로봇 손에서 성공률이 **72%**까지 급상승했습니다.
    • 특히 손가락을 많이 움직여야 하는 정교한 작업 (캔 분류, 병 건네기) 에서 기존 방식보다 훨씬 잘했습니다.
    • 새로운 로봇이 등장해도 재학습 없이 바로 사용 가능한 '제로샷 (Zero-shot)' 능력을 입증했습니다.

💡 결론: 왜 이것이 중요한가요?

이 기술은 **"로봇의 몸 (하드웨어) 이 변해도, 로봇의 두뇌 (소프트웨어) 는 그대로 쓸 수 있다"**는 것을 증명했습니다.

지금까지 로봇을 개발할 때마다 새로운 하드웨어에 맞춰 데이터를 다시 모으고 훈련시켰다면, 이제는 하나의 '보편적인 두뇌'를 만들어두고, 새로운 로봇 손만 끼워주면 바로 작동하는 시대가 왔습니다.

이는 마치 스마트폰 앱처럼, 어떤 기종 (로봇 손) 이든 같은 앱 (VLA 모델) 이 돌아가는 세상을 만드는 첫걸음입니다. 앞으로 더 다양한 형태의 로봇 손이 개발되더라도, 우리는 그 때마다 새로운 AI 를 만들지 않아도 될 것입니다.