SaPaVe: Towards Active Perception and Manipulation in Vision-Language-Action Models for Robotics

이 논문은 대규모 데이터와 3D 기하학적 인식을 기반으로 카메라 제어와 조작 행동을 분리하여 학습하는 엔드투엔드 프레임워크 'SaPaVe'를 제안함으로써, 복잡한 환경에서의 능동적 지각과 조작 성능을 기존 비전 - 언어 - 행동 모델 대비 획기적으로 향상시켰음을 보여줍니다.

Mengzhen Liu, Enshen Zhou, Cheng Chi, Yi Han, Shanyu Rong, Liming Chen, Pengwei Wang, Zhongyuan Wang, Shanghang Zhang

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 로봇이 인간의 눈과 손처럼 자연스럽게 세상을 보고, 물건을 잡는 방법을 연구한 **'SaPaVe(사파베)'**라는 새로운 기술을 소개합니다.

기존 로봇들은 대부분 고정된 카메라를 가지고 있어서, 물체가 시야에서 사라지거나 가려지면 당황하며 작업을 멈추곤 했습니다. 마치 눈을 깜빡이지도, 고개를 돌리지도 않는 로봇이 책상 위에 숨겨진 사과를 찾으려 애쓰는 것과 비슷합니다.

하지만 SaPaVe 는 스마트한 카메라 조작정교한 손동작을 동시에 배운 로봇입니다. 이를 쉽게 이해할 수 있도록 세 가지 비유로 설명해 드릴게요.


1. "눈을 감고 있는 로봇" vs "고개를 돌리는 탐정"

  • 기존 로봇 (고정 카메라):
    마치 눈을 감고 있는 탐정과 같습니다. "서랍 속에 사과가 있어!"라고 말해줘도, 서랍이 시야 밖으로 나가면 "어? 어디 갔지?"라며 당황합니다. 로봇이 물건을 찾으려면 사람이 직접 로봇을 움직여야 합니다.
  • SaPaVe 로봇 (활성화 된 시야):
    이는 스스로 고개를 돌려 주변을 살피는 탐정입니다. "서랍 속에 사과가 있어!"라고 하면, 로봇은 스스로 **"아, 서랍은 아래에 있겠구나"**라고 생각하며 고개를 아래로 숙여 (Active Perception) 사과를 찾습니다. 가려진 물건을 발견하면 고개를 돌려 시야를 확보한 뒤, 그제야 손을 뻗어 잡습니다.

2. "한 번에 모든 걸 배우기" vs "단계별 훈련"

이 로봇을 가르치는 방식도 매우 독특합니다. 보통은 "눈을 돌리고, 손으로 잡고, 물건을 옮기는 것"을 한 번에 다 가르치려다 보니 로봇이 혼란을 겪습니다.

SaPaVe 는 **두 단계 훈련 (Bottom-up 전략)**을 사용합니다.

  • 1 단계: "눈" 훈련 (카메라 Adapter)
    먼저 로봇에게 수십만 장의 사진과 언어 명령을 보여주며 "이 말에 맞춰 고개를 어디로 돌려야 할까?"를 가르칩니다. 이때 로봇의 '손'은 움직이지 않고, 오직 '눈 (카메라)'만 움직이는 법을 배웁니다. 마치 사진 찍는 연습만 먼저 시키는 것과 같습니다.
  • 2 단계: "손" 훈련 (조작 결합)
    이제 로봇이 "어디를 봐야 할지"를 잘 알게 되었으니, 손으로 물건을 잡는 법을 가르칩니다. 이때 이미 배운 '눈'의 지식을 활용해서, 가려진 물건을 찾아내며 잡는 복합적인 임무를 수행합니다.

이 방식은 카메라 조작과 손동작을 분리해서 가르친 뒤, 다시 합치는 것이라 로봇이 훨씬 더 빠르고 정확하게 배울 수 있습니다.

3. "3D 공간 감각"을 가진 마법사

로봇이 고개를 돌릴 때, 공간감이 깨지면 물건을 잡다가 떨어뜨리기 쉽습니다. SaPaVe 는 3D 공간 지식을 주입하는 기술을 사용합니다.

  • 비유: 마치 마법사가 주변 공간의 깊이와 거리를 눈으로 직접 계산하듯, 로봇도 고개를 돌리는 순간 "아, 저기는 1 미터 앞에 있고, 저 물체는 30 도 기울어져 있구나"라고 정확히 계산합니다. 그래서 고개를 돌리는 동안에도 손이 흔들리지 않고 정확하게 물건을 잡을 수 있습니다.

요약: 왜 이것이 중요한가요?

이 연구는 로봇이 복잡하고 어지러운 집안 환경에서도 인간처럼 스스로 상황을 파악하고 행동할 수 있게 만들었습니다.

  • 결과: 시뮬레이션과 실제 로봇 실험에서, 기존 최신 로봇 모델들보다 성공률이 30% 이상 높아졌습니다.
  • 의미: 이제 로봇은 "서랍 안의 물건을 꺼내라"는 명령을 받으면, "서랍이 가려져 있네? 고개를 돌려서 열어보자"라고 스스로 판단하고 행동할 수 있게 되었습니다.

결국 SaPaVe 는 로봇에게 "눈을 뜨고, 고개를 돌리며, 상황을 파악한 뒤 행동하는" 진정한 의미의 지능형 비서를 만들어낸 기술입니다.