Each language version is independently generated for its own context, not a direct translation.
1. 문제 정의 (Problem Statement)
기존의 비전 - 언어 - 행동 (VLA) 모델들은 시각적 관찰을 2D 패치 토큰 (2D patch tokens) 으로 인코딩합니다. 이는 다음과 같은 구조적 한계를 가집니다:
- 기하학적 구조 부재: 패치 토큰은 픽셀 공간의 고정된 영역을 차지할 뿐, 깊이 (depth), 표면 법선 (surface normal), 기하학적 신뢰도 (geometric confidence) 와 같은 3D 구조 정보를 내재하지 않습니다.
- 기존 깊이 기반 모델의 한계 (DepthVLA 등): 기존 연구들은 단일 스칼라 값 (scalar depth) 으로 깊이를 추가하지만, 이는 픽셀마다 균일하게 분포되어 불필요한 영역에도 토큰 예산을 낭비합니다. 또한, 스칼라 깊이는 표면의 방향성 (orientation) 이나 깊이 추정의 신뢰도를 표현하지 못합니다.
- 암묵적 추론: 3D 공간 이해와 행동 생성 사이의 과정이 완전히 암묵적 (implicit) 이며, 모델이 3D 장면을 어떻게 해석했는지 중간 단계를 검증하거나 설명할 수 있는 메커니즘이 부족합니다.
이러한 한계로 인해, 에지 그립 (edge grasping) 이나 핀 삽입 (peg insertion) 과 같이 밀리미터 단위의 정밀한 기하학적 정확도가 필요한 작업에서 VLA 모델의 성능이 저하됩니다.
2. 제안 방법 (Methodology)
저자들은 GST-VLA를 제안하며, 이는 두 가지 핵심 혁신을 통해 3D 공간 추론을 구조화합니다.
A. 가우스 공간 토키나이저 (Gaussian Spatial Tokenizer, GST)
고정된 (frozen) 시각 특징과 깊이 추정치를 결합하여 Ng=128개의 이방성 3D 가우스 원시 (anisotropic 3D Gaussian primitives) 로 변환하는 모듈입니다. 각 원시는 다음 7 개의 매개변수로 정의됩니다:
- 평균 위치 (μ∈R3): 깊이 역투영 (back-projection) 된 3D 앵커에서 학습된 잔차 (residual) 오프셋으로, 서브-패치 수준의 정밀한 위치 보정을 제공합니다.
- 로그 스케일 공분산 (σ∈R3): 축 정렬된 이방성 공분산 (Σ) 을 정의합니다. 고유값 구조를 통해 표면 방향성 (surface orientation) 을 인코딩합니다 (평면에서는 법선 방향의 분산이 작고, 가장자리에서는 여러 방향의 분산이 축소됨).
- 불투명도 (α∈(0,1)): 멀티 스케일 이미지 피라미드 (MIP) 를 통해 학습된 기하학적 신뢰도입니다. 질감이 없거나 반사되는 (specular) 영역처럼 깊이 추정이 불확실한 경우 토큰의 가중치를 낮춥니다.
핵심 처리 단계:
- 3D 푸리에 위치 인코딩: 2D 픽셀 위치가 아닌 3D 미터 좌표계에 기반한 푸리에 특징을 사용하여, 토큰 간의 실제 3D 거리 계산을 가능하게 합니다.
- 공간 주의 풀링 (Spatial Attention Pooling): 256 개의 원시 토큰을 128 개의 구조화된 토큰으로 압축합니다. 학습된 쿼리를 통해 기하학적으로 중요한 영역 (예: 물체 표면) 에 토큰 예산을 집중시키고, 배경이나 불확실한 영역에는 할당량을 줄입니다.
- 미분 가능 깊이 렌더링: 예측된 가우스 필드가 실제 깊이 지도와 기하학적으로 일관되도록 유지하기 위한 정규화 손실 (Loss) 을 사용합니다.
B. 깊이 인식 체인 오브 씽킹 (Depth-Aware Chain-of-Thought, DA-CoT)
행동 생성 전에 명시적인 3D 공간 추론 단계를 거치는 감독 학습 방식입니다. VLM 은 행동 토큰을 생성하기 전에 다음 4 가지 구조화된 중간 추론 (Thought) 을 생성합니다:
- 3D 객체 그라운딩 (c1): 작업 대상 객체의 카메라 좌표계 내 3D 질량 중심 (centroid) 생성.
- 그립 어포던스 (c2): 그립이 접촉해야 할 3D 지점과 접근 방향의 표면 법선 생성.
- 미터 공간 관계 (c3): 객체 간 또는 객체와 표면 간의 정량적 거리 생성.
- SE(3) 운동 계획 (c4): 그립 전, 그립, 후퇴 단계를 포함한 coarse 6-DoF 엔드 이펙터 웨이포인트 생성.
아키텍처 특징:
- DA-CoT 생성 중에는 원시 (raw) 256 개 가우스 토큰에 직접 접근하는 크로스-어텐션 레이어가 VLM 의 모든 트랜스포머 블록에 삽입됩니다. 이는 풀링된 토큰이 아닌 고해상도 기하학적 정보를 추론에 활용하게 합니다.
- 생성된 CoT 토큰은 행동 전문가 (Action Expert) 에게 조건부 (conditioning) 로 제공되어, 행동 생성이 검증된 공간 이해에 기반하도록 합니다.
C. 행동 전문가 및 훈련 프로토콜
- Flow-Matching Action Expert: VLM 은닉 상태와 DA-CoT 출력 (기하학적 추론) 의 이중 크로스-어텐션 조건부로 7-DoF 동작을 생성합니다. 혼합 전문가 (MoE) 구조를 사용하여 작업 단계별 (precision-reach, grasp 등) 로 전문가를 분화합니다.
- 3 단계 훈련 프로토콜:
- S1: GST 와 행동 전문가의 사전 훈련 (깊이 렌더링 손실 및 행동 손실 사용).
- S2: LoRA 를 적용한 VLM 적응 및 DA-CoT 감독 학습.
- S3: 전체 시스템의 엔드 - 투 - 엔드 미세 조정.
3. 주요 기여 (Key Contributions)
- GST 아키텍처: 고정된 깊이와 시각 특징을 이방성 3D 가우스 토큰으로 변환하여, 스칼라 깊이로는 불가능했던 표면 방향성과 기하학적 신뢰도를 토큰 수준에서 인코딩합니다.
- DA-CoT: 명시적인 3D 기하학적 목표 (질량 중심, 접촉점, 거리, 웨이포인트) 를 중간 생성 단계로 도입하여, 모델의 3D 추론 과정을 검증 가능하고 설명 가능하게 만듭니다.
- 상호 보완적 시너지: CoT 손실 (LCoT) 이 가우스 토큰의 위치 보정에 간접적으로 기여하고, 깊이 렌더링 손실 (Ldepth) 이 기하학적 일관성을 보장하여, 추론 품질과 기하학적 보정이 서로 강화되는 구조를 확립했습니다.
4. 실험 결과 (Results)
GST-VLA 는 LIBERO, SimplerEnv, LIBERO-Pro 등 다양한 벤치마크에서 기존 최첨단 VLA 모델들을 압도적으로 능가했습니다.
- 성능 향상:
- LIBERO: 평균 성공률 96.4% (DepthVLA 대비 +2.0%p).
- SimplerEnv: 평균 작업 진행률 80.2% (DepthVLA 대비 +5.4%p).
- 정밀 작업: 핀 삽입 (Insertion) 및 얇은 물체 그립 (Thin object grasping) 과 같이 기하학적 정밀도가 요구되는 작업에서 가장 큰 성능 향상 (+9.2%p, +8.3%p) 을 보였습니다.
- Ablation Study:
- 3D 푸리에 위치 인코딩 제거: -2.8%p (가장 큰 손실). 3D 거리 계산 능력을 상실함.
- 공간 주의 풀링 제거 (평균 풀링 사용): -2.1%p. 불필요한 영역에 토큰을 분배하여 신호가 희석됨.
- DA-CoT 제거: -3.9%p. 명시적인 공간 추론 단계가 없으면 성능이 크게 저하됨.
- 3 단계 훈련 (S1) 생략: -6.2%p. 기하학적으로 보정된 토큰이 없으면 VLM 이 공간 추론을 학습할 수 없음.
- 비교: 기존 DepthVLA, SpatialVLA, OpenVLA 등보다 파라미터와 계산 비용이 낮음에도 불구하고 훨씬 높은 정확도를 달성했습니다.
5. 의의 및 결론 (Significance)
이 논문은 로봇 제어 분야에서 VLA 모델의 3D 공간 이해 능력을 근본적으로 재정의했습니다.
- 기하학적 정밀도 확보: 단순한 깊이 값이 아닌, 방향성과 신뢰도를 포함한 구조화된 3D 토큰을 도입함으로써, 미세 조작 (precision manipulation) 과 같은 고난이도 작업의 성공률을 획기적으로 높였습니다.
- 검증 가능한 추론: DA-CoT 를 통해 모델이 "무엇을 보고, 어떻게 3D 공간을 이해했는지"를 명시적인 텍스트/좌표로 출력하게 함으로써, 로봇의 의사결정 과정을 해석 가능하게 (interpretable) 하고 신뢰성을 높였습니다.
- 효율성: 불필요한 배경 영역에 토큰을 할당하지 않는 적응형 풀링과 효율적인 MoE 구조를 통해, 높은 성능을 유지하면서도 계산 비용을 최적화했습니다.
결론적으로 GST-VLA 는 로봇이 복잡한 3D 환경에서 인간과 유사한 수준의 공간 추론 능력을 갖추고, 이를 기반으로 정밀한 행동을 수행할 수 있는 새로운 패러다임을 제시합니다.