From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

이 논문은 2D 인코더의 공간적 한계를 극복하고 RGB 만으로 강력한 3D 기하학적 사전 지식을 제공하며, 언어 추론을 보존하기 위해 공간 토큰을 행동 헤드로만 주입하는 새로운 패러다임인 FALCON 을 제안하여 다양한 시뮬레이션 및 실세계 작업에서 최첨단 성능을 달성함을 보여줍니다.

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan Zhou

게시일 Wed, 11 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🤖 문제: "눈은 좋지만, 공간감은 없는 로봇"

지금까지의 로봇 (VLA 모델) 은 마치 2D 만화책을 읽는 사람과 비슷했습니다.

  • 장점: 카메라로 본 사진 (2D 이미지) 과 사람의 말 (언어) 을 아주 잘 이해합니다. "과일 가져와"라고 하면 어떤 과일인지, 어디에 있는지 언어적으로 파악하죠.
  • 단점: 하지만 실제 세상은 **3D(입체)**입니다. 로봇은 사진만 보고 "이 사과가 얼마나 멀리 있는지", "얼마나 높은 곳에 있는지", "손이 닿을 수 있는 높이인가?"를 정확히 계산하지 못했습니다.
    • 비유: 평면 지도만 보고 산을 오르는 것과 같습니다. "산 정상까지 5km"라고 적혀 있어도, 실제로는 가파른 절벽이 있는지, 계단이 있는지 모르고 넘어가다 넘어지거나 길을 잃기 쉽죠.

이 때문에 로봇은 물체의 크기가 조금만 달라지거나, 배경이 바뀌면 당황해서 일을 못 하거나, 물건을 떨어뜨리는 실수를 자주 했습니다.


🦅 해결책: FALCON(팔콘) 의 등장

저자들은 이 문제를 해결하기 위해 FALCON이라는 새로운 로봇 두뇌를 개발했습니다. FALCON 은 로봇에게 **'공간 감각 (3D 감각)'**을 선물합니다.

1. "눈"에서 "손"으로 직접 연결하기 (공간 토큰 주입)

기존 방식은 로봇의 '언어 이해부 (대뇌)'에 3D 정보를 억지로 섞어서 이해시키려 했습니다. 하지만 이는 언어 능력을 흐리게 만들었습니다.

  • FALCON 의 방식: 언어 이해부 (대뇌) 는 "무엇을 해야 할지"만 생각하고, **직접적인 공간 정보 (깊이, 거리, 높이)**는 로봇의 **손을 움직이는 부위 (소뇌)**에 직접 전달합니다.
  • 비유: 요리사가 "소스 좀 짜줘"라고 말하면 (대뇌), 소금통을 들고 정확한 위치와 양을 조절하는 것은 손의 감각 (소뇌) 이 담당하는 것과 같습니다. FALCON 은 이 두 가지 역할을 명확히 나누어, 언어는 언어대로, 공간 감각은 공간 감각대로 최상의 상태로 작동하게 합니다.

2. "가상 현실"과 "실제 센서"를 모두 활용 (모달리티 이동성)

기존 기술은 3D 센서 (깊이 카메라 등) 가 있어야만 잘 작동했습니다. 하지만 센서가 고장 나거나 없으면 로봇은 눈이 먼 상태가 됩니다.

  • FALCON 의 방식: FALCON 은 RGB(일반 카메라) 이미지만으로도 마치 3D 지도를 그린 것처럼 깊이와 거리를 추론할 수 있는 능력을 가지고 있습니다. 하지만 만약 3D 센서가 있다면, 그 정보를 추가로 받아서 더 정밀하게 움직입니다.
  • 비유: FALCON 은 안개 낀 날에도 길찾기가 가능한 내비게이션입니다. 안개가 끼어 있어도 (센서 없이) 대략적인 길을 알고 가지만, 안개가 걷히고 정밀한 지도 (3D 센서) 가 들어오면 더 정확한 길로 안내합니다. 어떤 환경에서도 로봇이 실수하지 않게 해줍니다.

3. "뇌"와 "몸"의 완벽한 협업

FALCON 은 로봇이 언어를 이해하는 '지적 능력'과 물체를 잡는 '운동 능력'을 분리하면서도 서로 돕도록 설계했습니다.

  • 대뇌 (VLM): "빨간 사과를 가져와"라는 명령을 이해하고, 사과가 무엇인지 파악합니다.
  • 소뇌 (Action Head): "사과가 내 손에서 30cm 위에 있고, 높이가 5cm 라서 잡을 때 힘을 조절해야 해"라고 계산하여 손을 움직입니다.

🏆 결과: 얼마나 잘할까요?

이론만 좋은 게 아니라, 실제로도 놀라운 성과를 냈습니다.

  1. 복잡한 환경에서도 성공: 물건이 뒤죽박죽 섞여 있어도 (Cluttered scene), 로봇은 정확한 물체를 골라냅니다.
  2. 크기와 높이에 강함: 평소보다 큰 블록이나 작은 컵, 혹은 평소보다 높은 선반에 있는 물건도 척척 처리합니다. (기존 로봇들은 크기만 바뀌어도 실패율이 급증했습니다.)
  3. 적은 데이터로도 학습: 몇 번만 보여줘도 (Few-shot) 새로운 상황을 잘 적응합니다.

💡 한 줄 요약

FALCON은 로봇에게 **"사진만 보는 2D 눈"에서 "세상의 깊이와 높이를 느끼는 3D 감각"**을 심어주어, 로봇이 언어 명령을 듣고도 실제 3D 세상에서 물건을 더 정확하고 안전하게 다룰 수 있게 만든 혁신적인 기술입니다.

마치 로봇이 안경을 벗고 3D 안경을 쓴 것처럼, 이제 로봇은 세상을 훨씬 더 똑똑하게 보고 행동할 수 있게 되었습니다!