InstructVLA: Vision-Language-Action Instruction Tuning from Understanding to Manipulation

이 논문은 기존 비전 - 언어 - 행동 (VLA) 모델이 겪는 추론 능력 저하와 과적합 문제를 해결하기 위해, 대규모 비전 - 언어 모델의 유연한 추론 능력을 유지하면서 정밀한 조작 성능을 달성하는 새로운 엔드 - 투 - 엔드 모델 'InstructVLA'와 이를 위한 'VLA-IT' 학습 패러다임을 제안하고, 시뮬레이션 및 실제 환경에서 기존 모델들을 크게 앞서는 성능을 입증합니다.

Shuai Yang, Hao Li, Bin Wang, Yilun Chen, Yang Tian, Tai Wang, Hanqing Wang, Feng Zhao, Yiyi Liao, Jiangmiao Pang

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

로봇에게 '생각'을 가르치다: 인스트럭트 VLA (InstructVLA) 소개

이 논문은 로봇이 단순히 명령을 따르는 것을 넘어, 스스로 생각하며 행동을 계획할 수 있게 만든 획기적인 연구를 소개합니다. 기존 로봇들은 "컵을 들어"라고 하면 컵을 들지만, "컵이 깨지기 전에 조심스럽게 들어"라는 복잡한 상황이나 "식탁을 치우려면 어떤 도구가 필요할까?"라는 질문에는 막막해했습니다.

이 문제를 해결하기 위해 제안된 모델이 바로 **인스트럭트 VLA (InstructVLA)**입니다. 이를 이해하기 쉽게 일상적인 비유로 설명해 드리겠습니다.


1. 기존 로봇의 한계: "명령만 듣는 기계" vs "생각하는 사람"

기존의 로봇 학습 방식은 두 가지 큰 문제가 있었습니다.

  • 문제 1: 기억력 상실 (망각)
    • 비유: 로봇이 새로운 기술 (예: 컵을 잡는 법) 을 배우기 위해 집중해서 공부하면, 이전에 배운 일반 상식 (예: 컵이 깨지기 쉽다는 사실, 컵의 모양 등) 을 모두 잊어버리는 현상이 발생했습니다. 마치 수학 공부를 하다가 국어 실력이 사라지는 것과 같습니다.
  • 문제 2: 생각의 부재
    • 비유: 로봇은 "빨간 사과를 줘"라고 하면 빨간 사과를 줍니다. 하지만 "배고픈 친구를 위해 가장 달콤한 과일을 줘"라고 하면, '빨간 사과'와 '노란 배' 중 무엇이 더 달콤한지, 그리고 친구가 무엇을 원하는지 **생각 (추론)**을 할 수 없어 막힙니다.

2. 인스트럭트 VLA 의 해결책: "두뇌와 손의 완벽한 조화"

이 연구팀은 로봇에게 **거대한 언어 모델 (VLM, 마치 위키백과와 도서관을 모두 기억하는 천재)**의 지능을 유지하면서, 동시에 **정교한 손기술 (로봇 팔 제어)**을 가르치는 새로운 방식을 개발했습니다.

핵심 아이디어: "생각하고, 그다음 행동한다"

이 모델은 마치 숙련된 요리사처럼 작동합니다.

  1. 상황 파악 (생각 단계):
    • 요리사 (로봇) 가 "식탁을 치워"라는 말을 들으면, 먼저 주변을 훑어봅니다. "아, 여기는 접시가 많고 저기는 컵이 있구나. 컵은 깨지기 쉬우니까 조심해야 해."라고 말 (텍스트) 로 생각을 정리합니다.
    • 이 단계에서 로봇은 "컵을 들어"라는 단순 명령이 아니라, "접시와 컵을 구분하고, 깨지지 않게 조심해야 한다"는 맥락과 이유를 이해합니다.
  2. 행동 실행 (손기술 단계):
    • 생각한 내용을 바탕으로, 로봇 팔은 정확한 움직임을 계산하여 컵을 집어 올립니다.

3. 어떻게 가능했을까? (새로운 학습 방법)

연구팀은 로봇을 가르치는 방식을 완전히 바꿨습니다.

  • 기존 방식: 로봇 팔 움직임 데이터만 주입하면, 로봇은 기계처럼 움직이지만 상식은 사라집니다.
  • 인스트럭트 VLA 방식 (VLA-IT):
    • 혼합 학습: 로봇이 움직이는 데이터 (65 만 개) 와 일반 상식 데이터 (책, 뉴스, 대화 등) 를 섞어서 가르쳤습니다.
    • 전문가 시스템 (MoE): 로봇의 뇌에 '생각하는 전문가'와 '행동하는 전문가' 두 명이 있다고 상상해 보세요.
      • 복잡한 질문이 오면 '생각 전문가'가 먼저 답을 구상합니다.
      • 행동이 필요하면 '행동 전문가'가 그 계획을 실행합니다.
      • 이 두 전문가가 서로 방해하지 않고 협력하도록 설계하여, 로봇이 상식을 잃지 않으면서도 정교한 작업을 할 수 있게 했습니다.

4. 실제 성과: "생각하는 로봇"의 등장

이 모델은 다양한 테스트에서 놀라운 결과를 보여주었습니다.

  • 상황 이해력: "식탁을 치우려면 어떤 도구가 필요할까?"라는 질문을 받으면, 로봇은 단순히 무작정 손을 움직이는 대신 **"스펀지를 가져와야겠다"**라고 생각한 후 스펀지를 찾아갑니다.
  • 새로운 상황 대처: 훈련받지 않은 새로운 물체나 복잡한 지시문 (예: "가장 신맛이 나는 과일을 덜 신맛이 나는 과일 옆에 놓아줘") 에도 잘 대처했습니다. 마치 새로운 식당에 가도 메뉴를 보고 주문할 수 있는 사람처럼요.
  • 성능 향상: 기존 최고 성능 로봇보다 약 30% 이상 더 잘 수행했으며, 특히 복잡한 추론이 필요한 작업에서는 96% 이상의 개선을 보였습니다.

5. 결론: 로봇과 인간의 진정한 소통

이 연구는 로봇이 단순히 "명령을 실행하는 기계"에서 **"상황을 이해하고 대화하며 행동하는 파트너"**로 진화할 수 있음을 보여줍니다.

  • 비유: 과거의 로봇이 "지시등이 초록불일 때만 걷는 신호등"이었다면, 인스트럭트 VLA 는 **"주변을 살피고, 길을 물어보고, 목적지를 고려하며 걷는 똑똑한 보행자"**가 된 것입니다.

이 기술이 발전하면, 우리 집의 로봇이 "오늘 비가 오니까 창문 닫고, 빨래 널 준비해 줘"라고 말하면, 비를 보고 창문을 닫고 빨래를 널 준비를 스스로 생각하며 해줄 날이 머지않아 보입니다.