Each language version is independently generated for its own context, not a direct translation.

로봇에게 '생각'을 가르치다: 인스트럭트 VLA (InstructVLA) 소개

이 논문은 로봇이 단순히 명령을 따르는 것을 넘어, 스스로 생각하며 행동을 계획할 수 있게 만든 획기적인 연구를 소개합니다. 기존 로봇들은 "컵을 들어"라고 하면 컵을 들지만, "컵이 깨지기 전에 조심스럽게 들어"라는 복잡한 상황이나 "식탁을 치우려면 어떤 도구가 필요할까?"라는 질문에는 막막해했습니다.

이 문제를 해결하기 위해 제안된 모델이 바로 **인스트럭트 VLA (InstructVLA)**입니다. 이를 이해하기 쉽게 일상적인 비유로 설명해 드리겠습니다.

1. 기존 로봇의 한계: "명령만 듣는 기계" vs "생각하는 사람"

기존의 로봇 학습 방식은 두 가지 큰 문제가 있었습니다.

문제 1: 기억력 상실 (망각)
- 비유: 로봇이 새로운 기술 (예: 컵을 잡는 법) 을 배우기 위해 집중해서 공부하면, 이전에 배운 일반 상식 (예: 컵이 깨지기 쉽다는 사실, 컵의 모양 등) 을 모두 잊어버리는 현상이 발생했습니다. 마치 수학 공부를 하다가 국어 실력이 사라지는 것과 같습니다.
문제 2: 생각의 부재
- 비유: 로봇은 "빨간 사과를 줘"라고 하면 빨간 사과를 줍니다. 하지만 "배고픈 친구를 위해 가장 달콤한 과일을 줘"라고 하면, '빨간 사과'와 '노란 배' 중 무엇이 더 달콤한지, 그리고 친구가 무엇을 원하는지 **생각 (추론)**을 할 수 없어 막힙니다.

2. 인스트럭트 VLA 의 해결책: "두뇌와 손의 완벽한 조화"

이 연구팀은 로봇에게 **거대한 언어 모델 (VLM, 마치 위키백과와 도서관을 모두 기억하는 천재)**의 지능을 유지하면서, 동시에 **정교한 손기술 (로봇 팔 제어)**을 가르치는 새로운 방식을 개발했습니다.

핵심 아이디어: "생각하고, 그다음 행동한다"

이 모델은 마치 숙련된 요리사처럼 작동합니다.

상황 파악 (생각 단계):
- 요리사 (로봇) 가 "식탁을 치워"라는 말을 들으면, 먼저 주변을 훑어봅니다. "아, 여기는 접시가 많고 저기는 컵이 있구나. 컵은 깨지기 쉬우니까 조심해야 해."라고 말 (텍스트) 로 생각을 정리합니다.
- 이 단계에서 로봇은 "컵을 들어"라는 단순 명령이 아니라, "접시와 컵을 구분하고, 깨지지 않게 조심해야 한다"는 맥락과 이유를 이해합니다.
행동 실행 (손기술 단계):
- 생각한 내용을 바탕으로, 로봇 팔은 정확한 움직임을 계산하여 컵을 집어 올립니다.

3. 어떻게 가능했을까? (새로운 학습 방법)

연구팀은 로봇을 가르치는 방식을 완전히 바꿨습니다.

기존 방식: 로봇 팔 움직임 데이터만 주입하면, 로봇은 기계처럼 움직이지만 상식은 사라집니다.
인스트럭트 VLA 방식 (VLA-IT):
- 혼합 학습: 로봇이 움직이는 데이터 (65 만 개) 와 일반 상식 데이터 (책, 뉴스, 대화 등) 를 섞어서 가르쳤습니다.
- 전문가 시스템 (MoE): 로봇의 뇌에 '생각하는 전문가'와 '행동하는 전문가' 두 명이 있다고 상상해 보세요.
  - 복잡한 질문이 오면 '생각 전문가'가 먼저 답을 구상합니다.
  - 행동이 필요하면 '행동 전문가'가 그 계획을 실행합니다.
  - 이 두 전문가가 서로 방해하지 않고 협력하도록 설계하여, 로봇이 상식을 잃지 않으면서도 정교한 작업을 할 수 있게 했습니다.

4. 실제 성과: "생각하는 로봇"의 등장

이 모델은 다양한 테스트에서 놀라운 결과를 보여주었습니다.

상황 이해력: "식탁을 치우려면 어떤 도구가 필요할까?"라는 질문을 받으면, 로봇은 단순히 무작정 손을 움직이는 대신 **"스펀지를 가져와야겠다"**라고 생각한 후 스펀지를 찾아갑니다.
새로운 상황 대처: 훈련받지 않은 새로운 물체나 복잡한 지시문 (예: "가장 신맛이 나는 과일을 덜 신맛이 나는 과일 옆에 놓아줘") 에도 잘 대처했습니다. 마치 새로운 식당에 가도 메뉴를 보고 주문할 수 있는 사람처럼요.
성능 향상: 기존 최고 성능 로봇보다 약 30% 이상 더 잘 수행했으며, 특히 복잡한 추론이 필요한 작업에서는 96% 이상의 개선을 보였습니다.

5. 결론: 로봇과 인간의 진정한 소통

이 연구는 로봇이 단순히 "명령을 실행하는 기계"에서 **"상황을 이해하고 대화하며 행동하는 파트너"**로 진화할 수 있음을 보여줍니다.

비유: 과거의 로봇이 "지시등이 초록불일 때만 걷는 신호등"이었다면, 인스트럭트 VLA 는 **"주변을 살피고, 길을 물어보고, 목적지를 고려하며 걷는 똑똑한 보행자"**가 된 것입니다.

이 기술이 발전하면, 우리 집의 로봇이 "오늘 비가 오니까 창문 닫고, 빨래 널 준비해 줘"라고 말하면, 비를 보고 창문을 닫고 빨래를 널 준비를 스스로 생각하며 해줄 날이 머지않아 보입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

로봇이 실제 세계에서 효과적으로 작동하기 위해서는 다중 모달 추론 (Multimodal Reasoning) 과 정밀한 행동 생성 (Precise Action Generation) 을 통합해야 합니다. 그러나 기존의 비전 - 언어 - 행동 (VLA, Vision-Language-Action) 모델들은 다음과 같은 한계를 겪고 있습니다:

상호 간섭 및 망각 (Task Interference & Catastrophic Forgetting): 행동 학습을 위해 VLM(비전 - 언어 모델) 을 미세 조정할 때, 사전 학습된 강력한 비전 - 언어 추론 능력이 손실되거나 망각되는 현상이 발생합니다.
데이터 부족: 풍부한 다중 모달 지도 (Multimodal Supervision) 를 갖춘 조작 (Manipulation) 데이터셋이 부족합니다.
방법론적 격차: VLM 의 추론 능력을 행동 생성으로 효과적으로 전환하는 메커니즘과 훈련 패러다임이 부재합니다.
핵심 질문: "VLM 의 다중 모달 추론 능력을 훼손하지 않고 조작 기술을 습득할 수 있으며, 이러한 추론이 다시 조작 성능을 향상시킬 수 있는가?"

2. 제안 방법론: InstructVLA 및 VLA-IT

저자들은 InstructVLA라는 새로운 엔드 - 투 - 엔드 VLA 모델과 이를 학습시키기 위한 VLA-IT (Vision-Language-Action Instruction Tuning) 패러다임을 제안합니다.

A. 아키텍처 (Architecture)

InstructVLA 는 사전 학습된 VLM 을 기반으로 하며, 다음과 같은 구조를 가집니다:

통합 VLM 백본: Eagle2-2B 와 같은 경량화된 VLM 백본을 사용하여 고수준의 언어 이해와 다중 모달 추론 능력을 유지합니다.
잠재 행동 쿼리 (Latent Action Queries): $N$ 개의 학습 가능한 행동 쿼리를 도입하여 VLM 의 숨은 상태 (Hidden States) 에서 작업 관련 잠재 행동 (Latent Action) 을 추출합니다.
MoE (Mixture-of-Experts) 적응:
- 추론 (언어 생성) 과 실행 (행동 생성) 모드 간의 원활한 전환을 위해 LoRA(Low-Rank Adaptation) 모듈을 전문가 (Expert) 로 활용합니다.
- 스칼라 헤드 (Scalar Head) 가 입력 컨텍스트에 따라 각 전문가의 가중치 (게이팅) 를 동적으로 조절하여, 텍스트 추론과 잠재 행동 생성을 통합합니다.
Flow Matching 기반 행동 전문가 (Action Expert):
- 고수준 의도 (VLM 에서 추출된 잠재 행동) 와 이미지 관찰 (DINOv2 특징) 을 기반으로 저수준 제어 행동을 생성합니다.
- FiLM (Feature-wise Linear Modulation) 을 사용하여 시각적 특징을 잠재 행동으로 조절하며, Flow Matching 목적 함수를 사용하여 행동을 학습합니다.

B. 훈련 레시피 (Training Recipe)

안정적인 최적화와 다중 모달 능력 보존을 위해 2 단계 훈련 전략을 사용합니다:

단계 1: 행동 사전 학습 (Action Pretraining):
- 이질적인 조작 데이터 (Bridge, Fractal 등) 를 사용하여 VLM 기반 행동 전문가를 훈련합니다.
- 언어로 표현된 운동 설명 (Language Motion) 을 통해 VLM 의 잠재 행동 임베딩과 정렬합니다.
- 이 단계에서는 VLM 백본의 다중 모달 능력을 보존하기 위해 행동 관련 LoRA 만 미세 조정합니다.
단계 2: VLA-IT (Instruction Tuning):
- 650K 개의 VLA-IT 데이터셋을 활용합니다. 이 데이터셋은 장면 설명 (Captioning), 질문 - 답변 (QA), 명령 재작성 (Command Rewriting), 맥락 생성 (Context Creation) 등 다양한 지시어와 추론 패턴을 포함합니다.
- 일반 다중 모달 데이터와 조작 데이터를 교차 훈련 (Interleaved Training) 하여, 언어 추론과 행동 생성을 통합된 사고의 흐름 (Chain of Thought) 으로 결합합니다.
- MoE 어댑터 (언어 어댑터 + 행동 어댑터 + 스칼라 헤드) 만 학습하여 효율성을 높입니다.

3. 주요 기여 (Key Contributions)

InstructVLA 모델: VLM 의 강력한 비전 - 언어 지식을 보존하면서도 정밀한 행동 생성을 가능하게 하는 통합 아키텍처와 훈련 파이프라인을 제안했습니다.
VLA-IT 데이터셋 및 벤치마크:
- VLA-IT 데이터셋: 650K 개의 인간 - 로봇 상호작용에 대한 다양한 지시어, 장면 설명, QA 쌍으로 구성된 커스텀 데이터셋.
- SimplerEnv-Instruct 벤치마크: 80 개의 제로샷 (Zero-shot) 조작 태스크로 구성. 단순한 행동뿐만 아니라 상황적 추론 (Situated Reasoning) 과 고수준 지시 이해를 평가하는 새로운 평가 기준을 제시했습니다.
성능 검증 및 인사이트:
- 추론 능력이 조작 성능을 직접적으로 향상시킨다는 것을 입증했습니다.
- 실시간 추론 (Test-time thinking) 을 통해 복잡한 지시어를 해석하고 작업을 분해하는 능력을 보여줍니다.

4. 실험 결과 (Results)

A. 벤치마크 성능

SimplerEnv-Instruct: InstructVLA 는 미세 조정된 OpenVLA 보다 96% 더 높은 성능을 보였으며, GPT-4o 를 보조 시스템으로 사용한 행동 전문가 모델보다 29% 더 우수했습니다.
SimplerEnv (In-domain): SpatialVLA 대비 33% 향상된 성능을 기록했습니다.
다중 모달 벤치마크 (MMMU, MMStar 등): InstructVLA 는 유사한 크기의 VLM 들 (Bunny, PaliGemma 등) 과 경쟁하거나 이를 능가하는 다중 모달 이해 능력을 유지하며, 조작 능력을 동시에 습득했습니다.

B. 실세계 실험 (Real-world Experiments)

WidowX-250 암과 Franka Research 3 로봇에서 제로샷 및 퓨샷 (Few-shot) 실험을 수행했습니다.
추론 기반 작업: 수학 문제 해결, OCR 인식, 도구 사용 추론 등 추론이 필요한 태스크에서 OpenVLA 대비 40% 이상의 성능 향상을 보였습니다.
다중 모달 데이터의 효과: 일반 다중 모달 데이터를 함께 훈련함으로써, 로봇이 훈련 데이터에 없는 새로운 객체나 지시어 (예: "가장 신맛이 나는 과일") 를 이해하고 처리하는 능력이 크게 향상되었습니다.

C. 분석 (Ablation Studies)

MoE 의 효과: MoE 구조가 추론과 실행 모드 간의 전환을 효율적으로 처리하여 성능을 극대화함을 확인했습니다.
2 단계 훈련의 중요성: 행동 전문가를 사전 학습하고 이후 VLA-IT 로 미세 조정하는 방식이, 단일 단계 훈련이나 기존 방법 (ECoT 등) 보다 다중 모달 능력 보존과 조작 성능 향상 모두에서 우월함을 입증했습니다.
추론의 역할: 명시적인 텍스트 추론 (Thinking) 을 활성화했을 때, 특히 복잡한 상황적 추론 태스크에서 성능이 크게 향상됨을 확인했습니다.

5. 의의 및 결론 (Significance)

이 논문은 직관적이고 제어 가능한 인간 - 로봇 상호작용과 효율적인 정책 학습 사이의 간극을 해소하는 중요한 진전을 이루었습니다.

지식 보존: VLM 의 광범위한 세계 지식과 추론 능력을 로봇 조작에 성공적으로 통합하면서도, 기존 능력을 잃지 않는 방법을 제시했습니다.
추론의 실용화: 추론이 단순히 설명을 위한 것이 아니라, 실제 로봇의 행동 성공률을 높이는 핵심 요소임을 입증했습니다.
일반화: 개방형 지시 (Free-form instructions) 와 새로운 환경에 대한 강력한 제로샷 일반화 능력을 보여주어, 실제 가정 및 산업 환경에서의 로봇 적용 가능성을 높였습니다.

결론적으로, InstructVLA 는 VLM 의 추론 능력을 로봇의 행동으로 전환하는 새로운 패러다임을 제시하며, 더 일반화 가능하고 해석 가능하며 상호작용적인 로봇 에이전트 개발의 토대를 마련했습니다.

InstructVLA: Vision-Language-Action Instruction Tuning from Understanding to Manipulation