Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

이 논문은 기존 MLLM 과 DeepSeek-R1 을 활용해 인간 주석 없이 고품질 다중 모달 CoT 데이터를 구축하고, 점진적 사고 억제 훈련 (PTST) 과 GRPO 를 적용하여 다중 모달 추론 능력을 강화한 'Vision-R1'모델을 제안하며, 이를 통해 MathVista 벤치마크에서 OpenAI O1 과 유사한 성능을 달성했음을 보여줍니다.

Wenxuan Huang, Bohan Jia, Zijie Zhai, Shaosheng Cao, Zheyu Ye, Fei Zhao, Zhe Xu, Xu Tang, Yao Hu, Shaohui Lin

게시일 2026-03-03
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

비전-R1 (Vision-R1): 그림을 보고 깊이 생각하게 만든 AI 의 비밀

이 논문은 **"그림과 글을 함께 이해하는 AI(멀티모달 LLM)"**가 어떻게 수학 문제를 풀 때처럼 복잡한 논리 추론 능력을 갖게 되었는지 설명합니다.

기존의 AI 는 그림을 보고 "이건 개구리야"라고 바로 대답하는 데는 능숙했지만, "왜 개구리가 저기 있는 걸까?"라고 단계별로 깊이 생각하거나, 복잡한 기하학 문제를 풀 때는 종종 엉뚱한 답을 내놓곤 했습니다.

이 연구는 **"DeepSeek-R1"**이라는 텍스트 전용 AI 가 강화학습 (RL) 을 통해 스스로 사고하는 능력을 키운 데서 영감을 받아, 그림을 보는 AI 도 똑같은 능력을 갖게 하려고 했습니다. 하지만 단순히 AI 에게 "더 많이 생각해보라"고 강요만 해서는 실패했습니다. 그래서 저자들은 **'비전-R1(Vision-R1)'**이라는 새로운 모델을 만들었습니다.

이 과정을 쉽게 이해할 수 있도록 세 가지 단계로 나누어 설명해 드릴게요.


1 단계: "눈먼 천재"를 위한 안경 쓰기 (모달리티 브리징)

상황:
그림을 볼 수 있는 AI 는 있지만, 논리 추론을 잘하는 AI 는 그림을 못 봅니다. 반대로 논리 추론을 잘하는 AI(DeepSeek-R1) 는 그림을 못 봅니다. 마치 수학 천재가 안경을 쓰지 못해 칠판의 그림을 못 보는 상황과 같습니다.

해결책 (모달리티 브리징):
저자들은 두 AI 를 팀으로 꾸렸습니다.

  1. 그림 보는 AI가 그림을 보고 "개구리가 연못에 있어요"라고 설명합니다.
  2. 하지만 이 설명만으로는 수학 문제를 풀기엔 부족합니다. 그래서 그림 보는 AI에게 "이 그림을 보고 추론 과정까지 포함해서 설명해 줘"라고 시켰습니다.
  3. 이렇게 만들어진 상세한 설명논리 천재 AI에게 주었습니다.
  4. 논리 천재 AI 는 이제 "아, 그림에 개구리가 있고, 연못의 크기가 10m 라면..."이라고 사람처럼 단계별로 생각하며(Chain-of-Thought) 정답을 도출합니다.

이 과정을 통해 사람처럼 깊이 생각하며 그림을 분석하는 데이터 20 만 개를 만들었습니다. 이것이 바로 비전-R1 의 '콜드 스타트(초기 학습)' 자료입니다.


2 단계: "생각이 너무 많은" 학생을 다스리기 (과도한 생각 억제)

문제 발생:
초기 학습을 마친 AI 는 이제 그림을 보고 생각할 줄 알았습니다. 하지만 새로운 문제가 생겼습니다. 생각이 너무 길어지고 엉뚱한 길로 빠지는 '과도한 생각 (Overthinking)' 현상이 생긴 것입니다.

비유:
마치 시험을 치는 학생이 있습니다.

  • 초기 학습 후: 학생은 문제를 풀 때 "이게 정답일까? 아니다, 저게 정답일까? 아, 잠깐, 내가 실수했나? 다시 생각해보자..." 하며 10 분 동안 고민만 하고 정작 답을 못 내는 경우가 생깁니다.
  • 문제: AI 도 마찬가지로, 복잡한 추론을 하려다 보니 정답에 도달하는 가장 짧은 길을 찾지 못하고, 불필요하게 긴 생각의 미로에 빠졌습니다.

해결책 (PTST: 점진적 사고 억제 훈련):
저자들은 AI 에게 **"생각의 길이를 조절하는 훈련"**을 시켰습니다.

  1. 1 단계: "일단 생각은 짧게 하라. 핵심만 짚어라." (4K 토큰 제한)
    • AI 는 불필요한 고민을 줄이고 정답에 맞는 핵심 논리를 익힙니다.
  2. 2 단계: "이제 조금 더 길게 생각해보라." (8K 토큰으로 확장)
    • 핵심 논리를 익힌 상태에서, 복잡한 문제를 풀기 위해 생각의 깊이를 더합니다.

이처럼 단계별로 생각의 길이를 조절하면서 AI 는 "불필요한 고민은 줄이고, 필요한 때는 깊이 생각하는" 균형 잡힌 사고력을 갖게 되었습니다.


3 단계: 놀라운 결과 (작은 몸집, 거대한 능력)

이 훈련을 마친 비전-R1은 어떤 성과를 냈을까요?

  • 작은 몸집, 큰 실력: 파라미터가 **70 억 개 (7B)**인 작은 모델임에도 불구하고, **700 억 개 (70B)**가 넘는 거대 모델들과 경쟁할 수 있는 수준이 되었습니다.
  • 최고의 기록: 유명한 수학 벤치마크인 MathVista에서 **73.5%**의 정확도를 기록했습니다. 이는 OpenAI 의 O1(가장 강력한 추론 모델 중 하나)과 거의 비슷한 수준입니다. (O1 은 73.9%)
  • 확장성: 모델을 더 크게 (32B, 72B) 키우면 정확도는 더 올라가 **78.2%**까지 도달했습니다.

요약: 비전-R1 이教여주는 교훈

이 연구는 AI 에게 단순히 "더 많이 생각하라"고 강요하는 것만으로는 안 된다는 것을 보여줍니다.

  1. 좋은 자료 (데이터): 사람이 생각하는 방식처럼 질 높은 사고 과정을 가르쳐야 합니다.
  2. 단계적 훈련: 처음부터 복잡한 생각을 하려 하면 AI 는 혼란에 빠집니다. 짧은 생각부터 시작해 점차 길게 훈련해야 합니다.
  3. 균형: 정답을 빠르게 찾는 능력복잡한 문제를 깊이 파고드는 능력 사이의 균형을 맞추는 것이 핵심입니다.

결론적으로, 비전-R1은 AI 가 그림을 볼 때 단순히 '보는' 것을 넘어, 사람처럼 '생각하고 추론하는' 단계로 도약하게 만든 획기적인 기술입니다. 이는 앞으로 AI 가 의료 진단, 과학 연구, 복잡한 문제 해결 등 더 높은 영역에서 활약할 수 있는 발판이 될 것입니다.