Universal Pose Pretraining for Generalizable Vision-Language-Action Policies

Each language version is independently generated for its own context, not a direct translation.

1. 기존 방식의 문제점: "책만 읽은 로봇"

기존의 로봇 (VLA 모델) 은 거대한 인터넷 데이터 (사진과 글) 를 바탕으로 훈련되었습니다.

비유: 이 로봇은 **수만 권의 요리책을 읽은 '이론가'**와 같습니다.
- "토마토는 빨간색이고, 소금통은 둥글다"는 것을 아주 잘 압니다. (시각적 인식은 뛰어남)
- 하지만 **"토마토를 잡을 때 손가락을 얼마나 세게 쥐어야 하는지", "소금통을 기울일 때 30 도 각도로 기울여야 한다"**는 미세한 3 차원 공간 감각은 모릅니다.
결과: 로봇은 물체의 이름을 맞추는 퀴즈는 잘 풀지만, 실제 물건을 잡으려 하면 손이 떨리거나 물건을 떨어뜨리는 등 '이론과 실전'의 괴리가 생깁니다.

2. PoseVLA 의 핵심 아이디어: "공간감 훈련을 먼저!"

저자들은 이 문제를 해결하기 위해 로봇 훈련을 두 단계로 나누었습니다.

1 단계: "3D 공간 감각 깨우기" (프리-트레이닝)

비유: 로봇에게 건축가나 조각가처럼 3 차원 공간을 느끼는 훈련을 시킵니다.
- 단순히 "이게 컵이다"라고 외우는 게 아니라, **"이 컵은 내 시점에서 30cm 앞에 있고, 15 도 기울어져 있으며, 손으로 잡으려면 이 각도로 접근해야 한다"**는 것을 숫자 (포즈 토큰) 로 변환해 배웁니다.
- 이때 로봇은 실제 로봇 데이터뿐만 아니라, 인터넷에 있는 수많은 3D 사진과 깊이 정보 (Depth) 도 함께 학습합니다. 마치 전 세계의 3D 지도를 두루두루 훑어보며 공간감을 익히는 것과 같습니다.
핵심: 로봇이 카메라 (눈) 로 본 세상을 2D 평면이 아닌, 정확한 3D 입체 공간으로 이해하도록 만듭니다.

2 단계: "실제 로봇 팔에 맞춤" (정렬)

비유: 이제 공간 감각이 깨어난 로봇에게 실제 로봇 팔의 움직임을 가르칩니다.
- 앞서 익힌 '공간 감각'을 바탕으로, "이 컵을 잡으려면 내 팔을 이렇게 움직여라"라고 연결합니다.
- 기존 방식처럼 처음부터 다시 배우는 게 아니라, 이미 공간 감각이 탄탄한 상태에서 실제 작업만 익히는 것이라 훨씬 빠르고 효율적입니다.

3. 왜 이것이 혁신적인가? (창의적인 비유)

보편적인 언어 (Pose Token):
- 기존에는 로봇마다, 작업마다 언어가 달랐습니다. 하지만 이 방법은 **모든 물체와 움직임을 '위치와 각도'라는 공통된 언어 (포즈 토큰)**로 통일했습니다.
- 비유: 마치 전 세계 모든 나라의 지도를 하나의 공통된 좌표계로 통일한 것과 같습니다. 그래서 로봇은 낯선 물체나 새로운 환경에서도 당황하지 않고 "아, 이 물체는 저기 있고, 저렇게 잡아야겠구나"라고 바로 추론할 수 있습니다.
데이터 효율성:
- 기존에는 로봇이 일을 배우려면 수천 번의 시뮬레이션이나 실제 시도가 필요했습니다.
- 하지만 PoseVLA 는 100 번 정도의 시연만으로도 새로운 일을 척척 해냅니다.
- 비유: 요리책을 수만 권 읽은 '이론가'가 실제 주방에 들어와 선배가 한 번 시범만 보이면 바로 요리를 시작할 수 있는 것과 같습니다.

4. 실제 성과는 어떨까?

이론만 좋은 게 아니라, 실제 실험에서 놀라운 결과를 냈습니다.

시뮬레이션: 복잡한 장난감 조립이나 물건 옮기기 작업에서 기존 최고 성능 모델보다 훨씬 높은 성공률을 기록했습니다.
실제 로봇: 실제 로봇 팔을 이용해 그릇을 쌓거나, 옷을 개거나, 서랍을 여는 등 다양한 작업을 100 번의 시도만으로 성공적으로 수행했습니다. 특히 물체가 구부러지거나 (천, 옷) 모양이 복잡한 경우에도 잘 처리했습니다.

요약

이 논문은 **"로봇에게 단순히 '무엇'인지 아는 것보다, '어디에 있고 어떻게 움직여야 하는지'를 3 차원 공간에서 깊이 있게 이해하게 하는 것이 중요하다"**고 말합니다.

마치 아기에게 사물을 보여줄 때, 단순히 "이건 사과야"라고 말하는 대신, "이 사과를 잡으려면 이렇게 손을 뻗고, 이렇게 쥐어야 해"라고 몸으로 가르쳐 주는 것과 같습니다. PoseVLA 는 바로 그 공간 감각과 몸짓을 가르치는 새로운 교육법을 제시한 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

기존의 비전 - 언어 - 행동 (VLA, Vision-Language-Action) 모델들은 로봇 제어 분야에서 다음과 같은 근본적인 한계를 겪고 있습니다.

특징 붕괴 (Feature Collapse) 및 낮은 학습 효율성: 기존 VLA 모델들은 주로 시각적 질문 답변 (VQA) 에 최적화된 대규모 언어 모델 (VLM) 백본을 사용합니다. 이는 고수준의 의미 인식 (Semantic Identification) 에는 탁월하지만, 로봇 행동에 결정적인 미세한 3D 상태 변화 (자세, 접촉 기하학, 상대 운동 등) 를 포착하는 데는 취약합니다.
정밀도 불일치 (Granularity Mismatch): VLM 의 사전 학습은 범주형 인식과 고수준 의미에 집중되어 있는 반면, 로봇 조작은 정밀한 3D 공간적 변화에 의존합니다. 이로 인해 VQA 능력이 뛰어난 모델이 실제 제어 정책으로 전환될 때 성능이 급격히 떨어집니다.
데이터 이질성 (Data Heterogeneity Gap): 인터넷 규모의 시각 데이터는 물리적 grounding 이 부족하고, 로봇 데모 데이터는 수집 비용이 비싸고 양이 적습니다. 기존 모델들은 이 두 가지 극단을 효과적으로 통합하지 못해 일반화 성능이 제한적입니다.

2. 제안 방법론: Pose-VLA

저자들은 Pose-VLA를 제안하며, 학습 과정을 해리 (Decoupling) 된 두 단계로 재구성합니다. 핵심 아이디어는 이산화된 포즈 토큰 (Discrete Pose Tokens) 을 보편적인 표현 (Universal Representation) 으로 사용하여 다양한 3D 데이터와 로봇 데이터를 통합하는 것입니다.

가. 아키텍처 및 표현 (Architecture & Representation)

백본: PaliGemma 를 기반으로 하되, RGB 이미지, 깊이 맵 (Depth), 카메라 내적 파라미터 (Raymaps) 를 통합하여 본질적인 3D 인식을 강화합니다.
Unified Pose Token: 객체의 상태와 로봇의 행동을 모두 카메라 중심 좌표계 (Camera-centric frame) 의 3D 포즈 (위치 + 회전) 로 매핑합니다.
- 객체 표현: 카테고리 ( $c_t$ ), 2D 박스 중심 ( $b_t$ ), 3D 포즈 ( $p_t \in SE(3)$ ) 로 구성된 튜플을 생성합니다.
- 토큰화 전략: 회전 (Euler 각도) 과 이동 (x, y, z) 을 이산화된 토큰으로 변환합니다. 특히 깊이 (z 축) 의 분포 특성을 반영하여 $x, y$ 와 $z$ 를 구분된 토큰으로 처리하여 깊이 인식 능력을 향상시킵니다.
다중 모달 입력: RGB 에 더해 깊이 맵과 카메라 광선 (Raymaps) 을 추가 입력으로 사용하여, 추론 시에도 3D 기하학적 정보를 유지하도록 합니다.

나. 학습 파이프라인 (Two-Stage Training Pipeline)

1 단계: 보편적 3D 공간 사전 학습 (Pre-training)
- 목표: 로봇 데이터가 아닌 대규모 3D 데이터 (Omni3D, Omni6DPose, BOP 등) 를 활용하여 보편적인 3D 공간 사전 지식 (Universal 3D Spatial Priors) 을 학습합니다.
- 데이터: 140 만 장의 이미지와 650 만 개의 3D 주석 (객체 감지, 6D 포즈 추정 등) 을 사용합니다.
- 효과: 모델이 VQA 중심의 특징에서 벗어나 미세한 3D 공간적 변화와 기하학적 관계를 이해하도록 만듭니다.
2 단계: embodiment 정렬 (Post-training / Alignment)
- 목표: 사전 학습된 VLM 에 경량화된 'Action Expert'를 부착하여 특정 로봇의 행동 공간에 적응시킵니다.
- 데이터: 약 155 만 개의 로봇 데모 데이터 (AgibotWorld, InternData-A1 등) 를 사용합니다.
- 특징: 행동 (Action) 을 로봇 베이스 좌표계가 아닌 카메라 좌표계로 투영하여 학습함으로써, 다양한 시점과 로봇 간 일반화를 용이하게 합니다.

3. 주요 기여 (Key Contributions)

통합 VLM 프레임워크: RGB, 깊이, 카메라 내적 파라미터를 통합하여 내재된 3D 인식을 갖춘 새로운 VLA 아키텍처를 제안했습니다.
보편적 포즈 토큰 (Universal Pose Tokens): 이산화된 포즈 토큰을 통해 비로봇 3D 데이터와 로봇 데모 데이터를 하나의 공통 언어로 통합하여, 소량의 데모로도 효율적인 전이가 가능하도록 했습니다.
대규모 사전 학습 코퍼스: 3D 공간 grounding 을 위한 140 만 장 이미지 (650 만 개 3D 주석) 와 행동 정렬을 위한 155 만 개 로봇 궤적 데이터를 구축했습니다.
성능 입증: 다양한 시뮬레이션 및 실제 환경에서 SOTA 성능을 달성하며, 3D 공간 이해가 로봇 제어의 핵심임을 증명했습니다.

4. 실험 결과 (Results)

가. 3D Grounding 벤치마크

Objectron: AP15 기준 87.3을 기록하여 기존 오픈소스 모델 (Qwen3-VL, 71.2) 보다 16.1%p 향상되었으며, 폐쇄형 모델 (Gemini-2.0-Pro 등) 보다도 월등히 높은 성능을 보였습니다.
SUN RGB-D: 45.5의 점수로 오픈소스 모델 중 최상위권을 기록했습니다.
의의: 다양한 일상 객체와 복잡한 실내 환경에서 뛰어난 공간 인식 능력을 입증했습니다.

나. 시뮬레이션 벤치마크 (RoboTwin 2.0 & LIBERO)

RoboTwin 2.0: 어려운 난이도 (Hard) 에서 79.1% 의 평균 성공률을 기록하여 기존 SOTA 모델인 $\pi0$ (65.12%) 보다 14%p 이상 우위를 점했습니다.
LIBERO: 평균 96.0% 의 성공률을 기록하여 $\pi0$ (94.1%) 을 능가하고 $\pi0.5$ (96.8%) 와 유사한 성능을 보였습니다. 특히 장기 계획 (Long-horizon) 작업에서 92.4% 의 높은 성능을 발휘했습니다.

다. 실제 로봇 실험 (Real-world)

설정: 듀얼 암 Xtrainer 로봇을 사용하여 스택링, 컵 걸이, 서랍 조작 (장기 작업), 변형 가능 물체 (수건) 접기 등 4 가지 과제를 수행했습니다.
데이터 효율성: 과제당 100 개의 데모만으로 학습하여, 기존 모델 (PaliGemma: 28.75%, $\pi0.5$ : 73.75%) 대비 83.75% 의 평균 성공률을 달성했습니다.
결론: 3D 기하학적 사전 학습이 실제 환경에서의 일반화와 데이터 효율성을 극적으로 향상시킵니다.

라. 제거 실험 (Ablation Study)

깊이 (Depth) 정보: 깊이 정보가 제거될 경우 성능이 크게 저하됨 (특히 장기 작업에서 25%p 감소). 이는 명시적인 3D 기하학이 필수적임을 보여줍니다.
행동 표현: 관절 각도 (Joint angles) 대신 엔드 이펙터 (EE) 포즈를 사용할 때 성능이 향상됨. 이는 모델이 학습한 3D 공간적 특징을 직접 활용할 수 있기 때문입니다.
좌표계: 카메라 중심 (Camera-centric) 표현이 로봇 베이스 중심 표현보다 시각적 변화에 더 강인함.

5. 의의 및 결론 (Significance)

Pose-VLA 는 VQA 기반의 VLM 에서 물리적 세계에 기반한 (Embodied-aware) VLM 으로의 패러다임 전환을 제안합니다.

일반화: 비로봇 3D 데이터와 로봇 데이터를 통합하여, 소량의 데모로도 다양한 로봇과 환경에 적용 가능한 강력한 백본을 제공합니다.
효율성: 고비용의 대규모 로봇 데이터 수집에 대한 의존도를 줄이고, 3D 공간 이해를 통해 학습 효율성을 극대화합니다.
미래 방향: 이 연구는 VLA 모델의 확장성을 높이기 위해 "보편적인 3D 공간 사전 지식"을 학습하는 것이 핵심임을 입증하며, 향후 로봇 제어 분야에서 3D 기하학 기반 학습의 중요성을 강조합니다.