VLA-Thinker: Boosting Vision-Language-Action Models through Thinking-with-Image Reasoning

이 논문은 시각적 입력을 정적 맥락이 아닌 동적으로 호출 가능한 추론 행동으로 모델링하는 'VLA-Thinker' 프레임워크를 제안하여, SFT 와 GRPO 기반 강화학습을 통해 장거리 작업에서의 로봇 조작 성능을 크게 향상시켰습니다.

Chaoyang Wang, Wenrui Bao, Sicheng Gao, Bingxin Xu, Yu Tian, Yogesh S. Rawat, Yunhao Ge, Yuzhang Shang

게시일 2026-03-17
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🤖 로봇의 새로운 사고방식: "VLA-Thinker"

1. 기존 방식의 문제점: "한 번 보고 끝내는 로봇"

기존의 로봇 (VLA 모델) 은 마치 눈을 감고 요리 레시피를 외운 사람과 비슷합니다.

  • 상황: "냄비를 가스레인지에 올려놓고 불을 켜세요"라는 지시를 받습니다.
  • 행동: 로봇은 처음에 주변을 한 번 스캔합니다. "아, 냄비가 있고 가스레인지가 있구나."라고 생각합니다.
  • 문제: 그런데 로봇이 냄비를 잡으러 가다가 손이 미끄러지거나, 가스레인지 불이 켜졌는지 확인을 못 하면? 기존 로봇은 이미 한 번 본 기억 (정적 이미지) 에만 의존합니다. "아, 처음에 불이 꺼져 있었으니까 지금도 꺼져 있겠지"라고 추측만 할 뿐, 다시 확인하지 않습니다. 그래서 실수를 반복하거나 일을 망칩니다.

2. VLA-Thinker 의 혁신: "생각하며 다시 보는 로봇"

이 논문에서 제안한 VLA-Thinker는 마치 현명한 요리사처럼 행동합니다.

  • 핵심 아이디어: "생각 (Reasoning) 하는 도중에도, 필요한 순간에 다시 눈을 뜨고 자세히 볼 수 있다."
  • 비유: 요리사가 냄비를 옮기려다가 "잠깐, 이 냄비 손잡이가 뜨거운가? 다시 손으로 확인해 봐야겠다"라고 생각하며 **다시 확인 (Zoom-in)**하는 것과 같습니다.
  • 작동 방식:
    1. 생각: "불을 켜야 하는데, 손잡이 위치가 잘 안 보이네."
    2. 도구 사용: "자, 카메라를 줌인 (Zoom-in) 해서 손잡이를 자세히 봐야겠다." (이게 바로 '이미지를 통한 사고'입니다.)
    3. 확인: "아하, 손잡이가 여기 있구나. 이제 돌려야지."
    4. 행동: 불을 켭니다.

이처럼 생각 (Text) 과 보기 (Image) 가 번갈아 가며 이루어지는 과정을 통해 로봇은 실수를 줄이고 복잡한 일도 척척 해냅니다.


🛠️ 어떻게 가르쳤을까요? (두 단계 훈련법)

이 똑똑한 로봇을 만들기 위해 연구자들은 두 단계로 훈련시켰습니다.

1 단계: "모범 답안으로 배우기" (SFT Cold Start)

  • 비유: 요리 학교에서 선배 요리사가 "이렇게 생각하다가, 이렇게 확인하고, 이렇게 요리했다"라는 **상세한 레시피 (Chain-of-Thought)**를 가르쳐 주는 단계입니다.
  • 로봇에게 "무엇을 생각해야 하고, 언제 카메라를 확대해야 하는지"의 기본 패턴을 알려줍니다. 하지만 이 단계만으로는 로봇이 상황에 따라 유연하게 대응하지 못합니다.

2 단계: "실전 연습과 칭찬/질책" (GRPO 강화 학습)

  • 비유: 이제 로봇을 실제 주방에 보내고, 성공하면 칭찬 (보상), 실패하면 다시 생각하게 하는 훈련입니다.
  • 로봇이 "너무 자주 확대해서 시간을 낭비했네?" 혹은 "확대 안 해도 될 뻔했네?"라고 스스로 깨닫고, **가장 효율적인 방법 (언제 볼지, 언제 행동할지)**을 스스로 터득하게 됩니다.

🏆 결과는 어땠나요?

이 새로운 방식은 놀라운 성과를 거두었습니다.

  • LIBERO (레고 쌓기 등 단순 작업): 97.5% 성공률 (기존 최고 기록을 크게 경신).
  • RoboTwin 2.0 (양손으로 복잡한 작업): 긴 작업일수록 실수가 줄어들어 훨씬 더 잘 수행했습니다.

핵심 결론:
기존 로봇이 "한 번 보고 끝"이라면, VLA-Thinker 는 **"생각하다가 막히면 다시 보고, 다시 생각해서 해결"**합니다. 이는 로봇이 더 복잡하고 긴 작업을 할 때 실수를 줄이고, 인간처럼 유연하게 사고할 수 있게 해주는 중요한 기술입니다.

한 줄 요약:

"로봇에게 '생각하다가 다시 확인하는 습관'을 가르쳐서, 복잡한 일도 실수 없이 척척 해내게 만든 기술입니다."

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →