SaPaVe: Towards Active Perception and Manipulation in Vision-Language-Action Models for Robotics

Each language version is independently generated for its own context, not a direct translation.

이 논문은 로봇이 인간의 눈과 손처럼 자연스럽게 세상을 보고, 물건을 잡는 방법을 연구한 **'SaPaVe(사파베)'**라는 새로운 기술을 소개합니다.

기존 로봇들은 대부분 고정된 카메라를 가지고 있어서, 물체가 시야에서 사라지거나 가려지면 당황하며 작업을 멈추곤 했습니다. 마치 눈을 깜빡이지도, 고개를 돌리지도 않는 로봇이 책상 위에 숨겨진 사과를 찾으려 애쓰는 것과 비슷합니다.

하지만 SaPaVe 는 스마트한 카메라 조작과 정교한 손동작을 동시에 배운 로봇입니다. 이를 쉽게 이해할 수 있도록 세 가지 비유로 설명해 드릴게요.

1. "눈을 감고 있는 로봇" vs "고개를 돌리는 탐정"

기존 로봇 (고정 카메라):
마치 눈을 감고 있는 탐정과 같습니다. "서랍 속에 사과가 있어!"라고 말해줘도, 서랍이 시야 밖으로 나가면 "어? 어디 갔지?"라며 당황합니다. 로봇이 물건을 찾으려면 사람이 직접 로봇을 움직여야 합니다.
SaPaVe 로봇 (활성화 된 시야):
이는 스스로 고개를 돌려 주변을 살피는 탐정입니다. "서랍 속에 사과가 있어!"라고 하면, 로봇은 스스로 **"아, 서랍은 아래에 있겠구나"**라고 생각하며 고개를 아래로 숙여 (Active Perception) 사과를 찾습니다. 가려진 물건을 발견하면 고개를 돌려 시야를 확보한 뒤, 그제야 손을 뻗어 잡습니다.

2. "한 번에 모든 걸 배우기" vs "단계별 훈련"

이 로봇을 가르치는 방식도 매우 독특합니다. 보통은 "눈을 돌리고, 손으로 잡고, 물건을 옮기는 것"을 한 번에 다 가르치려다 보니 로봇이 혼란을 겪습니다.

SaPaVe 는 **두 단계 훈련 (Bottom-up 전략)**을 사용합니다.

1 단계: "눈" 훈련 (카메라 Adapter)
먼저 로봇에게 수십만 장의 사진과 언어 명령을 보여주며 "이 말에 맞춰 고개를 어디로 돌려야 할까?"를 가르칩니다. 이때 로봇의 '손'은 움직이지 않고, 오직 '눈 (카메라)'만 움직이는 법을 배웁니다. 마치 사진 찍는 연습만 먼저 시키는 것과 같습니다.
2 단계: "손" 훈련 (조작 결합)
이제 로봇이 "어디를 봐야 할지"를 잘 알게 되었으니, 손으로 물건을 잡는 법을 가르칩니다. 이때 이미 배운 '눈'의 지식을 활용해서, 가려진 물건을 찾아내며 잡는 복합적인 임무를 수행합니다.

이 방식은 카메라 조작과 손동작을 분리해서 가르친 뒤, 다시 합치는 것이라 로봇이 훨씬 더 빠르고 정확하게 배울 수 있습니다.

3. "3D 공간 감각"을 가진 마법사

로봇이 고개를 돌릴 때, 공간감이 깨지면 물건을 잡다가 떨어뜨리기 쉽습니다. SaPaVe 는 3D 공간 지식을 주입하는 기술을 사용합니다.

비유: 마치 마법사가 주변 공간의 깊이와 거리를 눈으로 직접 계산하듯, 로봇도 고개를 돌리는 순간 "아, 저기는 1 미터 앞에 있고, 저 물체는 30 도 기울어져 있구나"라고 정확히 계산합니다. 그래서 고개를 돌리는 동안에도 손이 흔들리지 않고 정확하게 물건을 잡을 수 있습니다.

요약: 왜 이것이 중요한가요?

이 연구는 로봇이 복잡하고 어지러운 집안 환경에서도 인간처럼 스스로 상황을 파악하고 행동할 수 있게 만들었습니다.

결과: 시뮬레이션과 실제 로봇 실험에서, 기존 최신 로봇 모델들보다 성공률이 30% 이상 높아졌습니다.
의미: 이제 로봇은 "서랍 안의 물건을 꺼내라"는 명령을 받으면, "서랍이 가려져 있네? 고개를 돌려서 열어보자"라고 스스로 판단하고 행동할 수 있게 되었습니다.

결국 SaPaVe 는 로봇에게 "눈을 뜨고, 고개를 돌리며, 상황을 파악한 뒤 행동하는" 진정한 의미의 지능형 비서를 만들어낸 기술입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

로봇이 복잡하고 역동적인 환경에서 인간과 유사하게 행동하기 위해서는 **능동적 지각 (Active Perception)**과 **능동적 실행 (Active Execution)**의 두 가지 능력이 필수적입니다.

능동적 지각: 혼잡한 환경에서 작업에 필수적인 정보를 얻기 위해 시점을 전략적으로 조정하는 능력 (예: 가려진 물체를 찾기 위해 머리를 움직여 시야를 넓히는 것).
능동적 실행: 새로 획득한 지각 정보를 바탕으로 즉각적인 조작 행동을 수행하는 능력 (예: 최적의 시점이 아니더라도 작업에 필요한 핵심 정보를 바탕으로 그리퍼를 움직이는 것).

기존 방법의 한계:

시각 - 언어 - 행동 (VLA) 모델: 기존 VLA 모델들은 대부분 고정된 최적의 시점 (Fixed View) 에서 훈련되어, 시점이 변경되거나 가려짐 (Occlusion) 이 발생하면 성능이 급격히 저하됩니다.
데이터 부족: 카메라 움직임과 조작 행동을 동시에 포함하는 대규모 실세계 데이터는 수집 비용이 매우 비싸고 희소합니다.
단일 액션 공간의 문제: 카메라 제어와 조작 행동을 단일 액션 공간으로 통합하여 학습하면, 서로 다른 특성을 가진 두 작업 간의 간섭이 발생하고 훈련 데이터의 부족으로 인해 성능이 최적화되지 않습니다.

2. 제안 방법: SaPaVe (Methodology)

저자들은 **SaPaVe(Semantic active Perception and active-View execution)**라는 엔드 - 투 - 엔드 (End-to-End) 프레임워크를 제안합니다. 이 프레임워크는 **분리된 액션 공간 (Decoupled Action Space)**과 하향식 (Bottom-up) 학습 전략을 핵심으로 합니다.

2.1. 핵심 아키텍처

분리된 액션 헤더 (Decoupled Action Heads): 카메라 움직임 (머리 회전) 과 로봇 팔/손의 조작 행동을 별도의 디코더로 분리합니다. 이는 두 작업 간의 간섭을 최소화하고 각 작업에 특화된 데이터로 학습할 수 있게 합니다.
카메라 어댑터 (Camera Adapter): 대규모 VLM(비전 - 언어 모델) 의 가중치는 고정하고, LoRA(Low-Rank Adaptation) 를 통해 카메라 제어에 특화된 어댑터만 학습시킵니다. 이를 통해 VLM 의 강력한 시맨틱 이해 능력을 유지하면서 능동적 지각 능력을 효율적으로 습득합니다.
범용 공간 지식 주입 (Universal Spatial Knowledge Injection): 3D 기하학적 정보 (깊이, 카메라 포즈 등) 를 인코더를 통해 추출하여 액션 헤더에 주입합니다. 이는 동적인 시점 변화 하에서도 3D 공간 이해를 유지하고 조작의 견고성을 높입니다.

2.2. 2 단계 학습 전략 (Two-Stage Training Strategy)

데이터 효율성을 극대화하기 위해 두 단계로 나뉩니다.

1 단계: 시맨틱 능동적 지각 정렬 (Semantic Active Perception Alignment)
- 목표: 로봇에게 "어디를 봐야 하는가"에 대한 시맨틱 사전 지식을 부여.
- 데이터: 제안된 대규모 데이터셋 ActiveViewPose-200K를 사용.
- 학습: 카메라 어댑터와 카메라 액션 디코더만 학습 (조작 헤더는 고정).
2 단계: 능동적 조작 미세 조정 (Active Manipulation Fine-tuning)
- 목표: 획득한 지각 능력을 바탕으로 실제 조작 수행.
- 데이터: ActiveViewPose-200K 와 실제 로봇 조작 데이터의 혼합 (Hybrid Data) 사용.
- 학습: 분리된 액션 헤더 (카메라 + 조작) 를 모두 미세 조정하며, 3D 공간 지식을 주입하여 견고한 실행을 학습.

3. 주요 기여 (Key Contributions)

SaPaVe 프레임워크: 분리된 액션 공간과 2 단계 학습 전략을 통해 데이터 효율적으로 능동적 지각과 조작을 동시에 학습하는 엔드 - 투 - 엔드 모델 제안.
ActiveViewPose-200K 데이터셋: 20 만 개의 이미지 - 언어 - 카메라 움직임 쌍으로 구성된 대규모 데이터셋. 시맨틱 기반의 카메라 제어 학습을 위해 설계되었으며, 3D 자산과 절차적 장면 생성을 통해 구축됨.
ActiveManip-Bench 벤치마크: 고정 시점이 아닌 능동적 시점을 평가하는 최초의 시뮬레이션 벤치마크. 12 가지 작업, 100 개 객체, 20 가지 다양한 장면으로 구성됨.

4. 실험 결과 (Results)

시맨틱 능동적 지각 평가: ActiveViewPose-200K 테스트셋에서 SaPaVe 는 2B 파라미터 모델임에도 불구하고, Gemini-2.5-Pro(70 억 이상 파라미터 추정) 보다 평균 16% 높은 성공률을 기록했습니다.
시뮬레이션 성능 (ActiveManip-Bench): 고정 카메라나 손목 카메라만 사용하는 기존 방식보다 월등히 우수했습니다. 특히 가려짐 (Occluded) 이나 시야 밖 (Out-of-View) 작업에서 고정 카메라 대비 58% 높은 성공률을 달성했습니다.
실세계 성능: Unitree G1 휴머노이드 로봇을 이용한 실세계 실험에서, 기존 VLA 모델 (GR00T N1, $\pi_0$ ) 보다 31.25% ~ 40% 높은 성공률을 기록하며 뛰어난 일반화 능력을 입증했습니다.
일반화 능력: 훈련되지 않은 객체, 조명 변화, 새로운 장면에서도 높은 성공률을 유지하여 3D 공간 지식 주입의 효과를 입증했습니다.

5. 의의 및 결론 (Significance)

패러다임 전환: 기존 VLA 모델이 가진 "고정 시점"의 한계를 극복하고, 로봇이 스스로 시점을 조절하며 복잡한 작업을 수행하는 **능동적 조작 (Active Manipulation)**의 새로운 기준을 제시했습니다.
데이터 효율성: 실세계 데이터 수집의 어려움을 해결하기 위해, 대규모 시뮬레이션 데이터와 분리된 학습 전략을 결합하여 적은 비용으로 고성능을 달성하는 방법을 제시했습니다.
실용성: 가려짐이 심하거나 시야 밖의 물체를 찾는 등 실제 가정 및 산업 환경에서 발생할 수 있는 복잡한 시나리오에 대한 로봇의 적응력을 크게 향상시켰습니다.

결론적으로, SaPaVe 는 지각 (Perception) 과 실행 (Execution) 의 긴밀한 결합을 통해 로봇이 인간처럼 능동적으로 환경을 탐색하고 조작할 수 있는 가능성을 열었으며, 향후 휴머노이드 로봇의 실용화를 위한 중요한 기술적 진보로 평가됩니다.

SaPaVe: Towards Active Perception and Manipulation in Vision-Language-Action Models for Robotics

1. "눈을 감고 있는 로봇" vs "고개를 돌리는 탐정"

2. "한 번에 모든 걸 배우기" vs "단계별 훈련"

3. "3D 공간 감각"을 가진 마법사

요약: 왜 이것이 중요한가요?

1. 문제 정의 (Problem)

2. 제안 방법: SaPaVe (Methodology)

2.1. 핵심 아키텍처

2.2. 2 단계 학습 전략 (Two-Stage Training Strategy)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Towards Automatic Stress Analysis using Scaled Boundary Finite Element Method with Quadtree Mesh of High-order Elements

Computing Characteristic Polynomials of p-Curvatures in Average Polynomial Time

Non-degenerate Rigid Alignment in a Patch Framework

Shirakami: A Hybrid Concurrency Control Protocol for Tsurugi Relational Database System

The MCC approaches the geometric mean of precision and recall as true negatives approach infinity