VLA-Thinker: Boosting Vision-Language-Action Models through Thinking-with-Image Reasoning

Each language version is independently generated for its own context, not a direct translation.

🤖 로봇의 새로운 사고방식: "VLA-Thinker"

1. 기존 방식의 문제점: "한 번 보고 끝내는 로봇"

기존의 로봇 (VLA 모델) 은 마치 눈을 감고 요리 레시피를 외운 사람과 비슷합니다.

상황: "냄비를 가스레인지에 올려놓고 불을 켜세요"라는 지시를 받습니다.
행동: 로봇은 처음에 주변을 한 번 스캔합니다. "아, 냄비가 있고 가스레인지가 있구나."라고 생각합니다.
문제: 그런데 로봇이 냄비를 잡으러 가다가 손이 미끄러지거나, 가스레인지 불이 켜졌는지 확인을 못 하면? 기존 로봇은 이미 한 번 본 기억 (정적 이미지) 에만 의존합니다. "아, 처음에 불이 꺼져 있었으니까 지금도 꺼져 있겠지"라고 추측만 할 뿐, 다시 확인하지 않습니다. 그래서 실수를 반복하거나 일을 망칩니다.

2. VLA-Thinker 의 혁신: "생각하며 다시 보는 로봇"

이 논문에서 제안한 VLA-Thinker는 마치 현명한 요리사처럼 행동합니다.

핵심 아이디어: "생각 (Reasoning) 하는 도중에도, 필요한 순간에 다시 눈을 뜨고 자세히 볼 수 있다."
비유: 요리사가 냄비를 옮기려다가 "잠깐, 이 냄비 손잡이가 뜨거운가? 다시 손으로 확인해 봐야겠다"라고 생각하며 **다시 확인 (Zoom-in)**하는 것과 같습니다.
작동 방식:
1. 생각: "불을 켜야 하는데, 손잡이 위치가 잘 안 보이네."
2. 도구 사용: "자, 카메라를 줌인 (Zoom-in) 해서 손잡이를 자세히 봐야겠다." (이게 바로 '이미지를 통한 사고'입니다.)
3. 확인: "아하, 손잡이가 여기 있구나. 이제 돌려야지."
4. 행동: 불을 켭니다.

이처럼 생각 (Text) 과 보기 (Image) 가 번갈아 가며 이루어지는 과정을 통해 로봇은 실수를 줄이고 복잡한 일도 척척 해냅니다.

🛠️ 어떻게 가르쳤을까요? (두 단계 훈련법)

이 똑똑한 로봇을 만들기 위해 연구자들은 두 단계로 훈련시켰습니다.

1 단계: "모범 답안으로 배우기" (SFT Cold Start)

비유: 요리 학교에서 선배 요리사가 "이렇게 생각하다가, 이렇게 확인하고, 이렇게 요리했다"라는 **상세한 레시피 (Chain-of-Thought)**를 가르쳐 주는 단계입니다.
로봇에게 "무엇을 생각해야 하고, 언제 카메라를 확대해야 하는지"의 기본 패턴을 알려줍니다. 하지만 이 단계만으로는 로봇이 상황에 따라 유연하게 대응하지 못합니다.

2 단계: "실전 연습과 칭찬/질책" (GRPO 강화 학습)

비유: 이제 로봇을 실제 주방에 보내고, 성공하면 칭찬 (보상), 실패하면 다시 생각하게 하는 훈련입니다.
로봇이 "너무 자주 확대해서 시간을 낭비했네?" 혹은 "확대 안 해도 될 뻔했네?"라고 스스로 깨닫고, **가장 효율적인 방법 (언제 볼지, 언제 행동할지)**을 스스로 터득하게 됩니다.

🏆 결과는 어땠나요?

이 새로운 방식은 놀라운 성과를 거두었습니다.

LIBERO (레고 쌓기 등 단순 작업): 97.5% 성공률 (기존 최고 기록을 크게 경신).
RoboTwin 2.0 (양손으로 복잡한 작업): 긴 작업일수록 실수가 줄어들어 훨씬 더 잘 수행했습니다.

핵심 결론:
기존 로봇이 "한 번 보고 끝"이라면, VLA-Thinker 는 **"생각하다가 막히면 다시 보고, 다시 생각해서 해결"**합니다. 이는 로봇이 더 복잡하고 긴 작업을 할 때 실수를 줄이고, 인간처럼 유연하게 사고할 수 있게 해주는 중요한 기술입니다.

한 줄 요약:

"로봇에게 '생각하다가 다시 확인하는 습관'을 가르쳐서, 복잡한 일도 실수 없이 척척 해내게 만든 기술입니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

기존의 비전 - 언어 - 행동 (VLA, Vision-Language-Action) 모델은 embodied intelligence(구체적 지능) 분야에서 유망한 성과를 보이고 있지만, 다음과 같은 근본적인 한계를 가지고 있습니다.

텍스트 기반 추론의 한계: 기존 CoT(Chain-of-Thought) 기반 VLA 모델들은 시각적 입력을 **정적 컨텍스트 (static context)**로 한 번만 인코딩하고, 추론 과정을 주로 언어 공간에서 수행합니다.
수동적 관측: 인간의 인지 과정처럼 환경을 능동적으로 재확인하거나, 모호함을 해결하기 위해 특정 영역을 집중적으로 관찰하는 기능이 부족합니다.
오류 복구 및 장기 작업의 어려움: 중간 단계에서 오류가 발생하거나 환경이 불확실할 때, 시각 정보를 다시 조회 (re-visit) 할 수 없어 장기적인 조작 작업 (long-horizon manipulation) 에서 성능이 저하됩니다.

2. 제안 방법론 (Methodology)

이 논문은 "Thinking-with-Image Reasoning(이미지를 통한 사고)" 패러다임을 제안하여, 시각적 지각을 추론 과정의 명시적이고 동적으로 호출 가능한 행동으로 모델링합니다.

핵심 아키텍처: VLA-Thinker

능동적 지각 (Active Perception): 모델이 추론 과정에서 필요에 따라 시각적 도구 (예: crop_image를 통한 확대/줌인) 를 호출하여 작업 관련 시각 정보를 능동적으로 획득합니다.
교차된 프로세스: 기존의 '관측 - 추론 - 행동' 파이프라인을 **'관측 - 추론 - 행동 - (필요시) 재관측'**의 밀접하게 결합된 상호작용 프로세스로 변환합니다.
수식적 정의: 초기 지시어 ( $T_0$ ) 와 시각 관측 ( $V_0$ ) 을 바탕으로, 모델은 텍스트 추론 ( $T_k$ ), 지각 도구 호출 ( $C_k$ ), 도구 실행 결과 ( $V_k$ ), 그리고 최종 행동 ( $A_k$ ) 을 교차하여 생성합니다.

2 단계 학습 전략 (Two-Stage Training Pipeline)

모델이 "무엇을 추론할지", "언제/어떻게 시각 정보를 조회할지"를 학습하도록 하기 위해 두 단계의 학습을 도입합니다.

SFT Cold-Start (지도 미세 조정):
- 목적: 구조화된 추론 패턴과 도구 사용 행동을 활성화.
- 방법: 기존 embodied 데이터셋에는 CoT 라벨이 부족하므로, Qwen3-VL-30B 와 같은 대형 모델을 이용해 고품질의 **시각적 CoT 데이터 (Embodied CoT)**를 합성합니다.
- 데이터 구성: 그리퍼 상태 변화를 감지하여 키프레임을 식별하고, 해당 프레임에 대해 도구 호출과 텍스트 추론이 포함된 라벨을 생성합니다. 나머지 프레임에는 순수 텍스트 CoT 를 할당하여 추론의 연속성을 보장합니다.
GRPO 기반 강화 학습 (Reinforcement Learning):
- 목적: 희소 보상 (sparse reward) 환경에서 전체 추론 - 행동 궤적을 작업 성공과 정렬 (alignment).
- 방법: Group Relative Policy Optimization (GRPO) 알고리즘을 적용합니다.
- 보상 함수: 작업 성공 여부 ( $I_{success}$ ) 와 추론 형식 준수 여부 ( $I_{format}$ ) 를 기반으로 한 희소 보상을 사용합니다.
- 효과: 모델이 불필요한 도구 호출을 줄이고, 필요한 경우에만 시각 정보를 조회하여 최종 작업 성공률을 극대화하도록 학습합니다.

3. 주요 기여 (Key Contributions)

VLA-Thinker 도입: 시각적 지각을 동적으로 호출 가능한 추론 행동으로 모델링한 최초의 VLA 모델입니다. 멀티모달 embodied CoT 를 실현합니다.
혁신적인 학습 프레임워크: SFT 를 통한 추론 활성화와 GRPO 를 통한 궤적 수준 정렬을 결합한 2 단계 학습 전략을 제안하여, 희소 보상 하에서도 안정적인 장기 추론을 가능하게 합니다.
성능 입증: LIBERO 와 RoboTwin 2.0 벤치마크에서 기존 최첨단 모델들을 압도하는 성능을 보여주며, 특히 장기 작업에서의 오류 복구 능력과 모호함 해결 능력을 입증했습니다.

4. 실험 결과 (Results)

LIBERO 벤치마크

성능: 평균 **97.5%**의 성공률 (SR) 을 기록하여 기존 베이스라인 (OpenVLA-OFT, 91.0%) 대비 6.5%p 향상.
세부 Suites: Spatial (+7.1%), Long (+10.4%) 등 복잡한 공간 이해와 장기 작업에서 가장 큰 개선을 보임.

RoboTwin 2.0 벤치마크 (이중 팔 조작)

Short Horizon (100-130 단계): 62.3% 성공률 (OpenVLA-OFT 대비 +41.0%p).
Medium Horizon (150-230 단계): 70.7% 성공률.
Long & Extra Long Horizon (280-650 단계): 64.6% 성공률.
의의: 작업의 길이가 길어질수록 상대적 성능 우위가 커지며, 이는 "Thinking-with-Image" 방식이 장기 추론 체인에서의 오차 누적을 효과적으로 완화함을 시사합니다.

Ablation Study (분석)

SFT 만 사용: 95.0% (형식과 도구 사용은 학습되나 최적화 부족).
GRPO 만 사용: 88.2% (구조화된 추론 사전 지식이 없어 불안정).
결론: 두 단계가 상호 보완적이며, 모두 결합되었을 때 최적의 성능을 발휘합니다. 또한 RL 학습 후 불필요한 도구 호출이 줄어들어 추론 길이가 최적화되는 것을 확인했습니다.

5. 의의 및 결론 (Significance)

패러다임 전환: VLA 모델에서 시각 정보를 단순한 '입력'이 아닌, 추론 과정에 능동적으로 개입하는 '행동'으로 재정의했습니다.
실용성: 복잡한 환경에서 불확실성을 해결하고, 중간 오류를 복구하여 장기 작업을 성공적으로 수행할 수 있는 능력을 부여했습니다.
확장성: 현재는 '줌인 (Zoom-in)' 도구를 사용했지만, 이 프레임워크는 향후 더 다양하고 정교한 시각적 도구들을 통합할 수 있는 확장 가능한 기반을 제공합니다.

이 연구는 embodied AI 가 단순히 반응형 (reactive) 을 넘어, 환경을 능동적으로 탐색하고 사고하는 인지적 에이전트로 발전하는 중요한 이정표가 됩니다.