DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning

이 논문은 사전 수집된 추론 데이터 없이 강화학습만으로 모델이 시각 정보를 전략적으로 활용하는 '이미지 기반 사고' 능력을 자연스럽게 습득하도록 한 DeepEyes 를 제안하며, 이를 통해 일반적 추론 및 시각적 착시 감소 등 다양한 성능 향상을 달성했음을 보여줍니다.

Ziwei Zheng, Michael Yang, Jack Hong, Chenxiao Zhao, Guohai Xu, Le Yang, Chao Shen, Xing Yu

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

DeepEyes: 그림을 보며 '생각하는' 인공지능의 이야기

이 논문은 **"DeepEyes"**라는 새로운 인공지능 모델을 소개합니다. 기존 AI 들은 주로 텍스트 (글자) 만 보고 추론하는 데 익숙했지만, DeepEyes 는 눈을 통해 세상을 직접 보고, 그 정보를 바탕으로 생각하며 답을 찾는 능력을 배웠습니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 기존 AI vs DeepEyes: "눈을 감고 추측하는 사람" vs "눈을 뜨고 확인하는 탐정"

  • 기존 AI (텍스트 중심 추론):
    imagine 하세요. 어두운 방에서 누군가에게 "이 방에 시계가 있나요?"라고 물어본다고 가정해 봅시다. 기존 AI 는 방을 직접 보지 않고, "아, 거실에는 보통 시계가 있지. 아마 있겠지?"라고 글자만 보고 추측합니다. 이때 실수 (환각) 가 자주 발생합니다.
  • DeepEyes (이미지 중심 추론):
    DeepEyes 는 다릅니다. "잠깐, 방을 자세히 봐야겠어"라고 말합니다. 그리고 눈을 크게 뜨고 (줌인) 방 구석구석을 살피며, "아, 책장 위에 둥근 물체가 있네! 이게 시계인가?"라고 직접 확인한 후 답을 합니다.

이 모델은 **강화 학습 (Reinforcement Learning)**이라는 훈련 방식을 통해, 정답을 맞출 때 "잘했다!"는 보상을 받으며 스스로 어디를, 어떻게 자세히 봐야 하는지를 배웠습니다.

2. 핵심 기술: "능동적인 지각 (Active Perception)"

DeepEyes 의 가장 큰 특징은 스스로 결정한다는 점입니다.

  • 비유: 현미경을 든 과학자
    평소에는 넓은 시야로 전체를 봅니다. 하지만 "어? 이 부분이 흐릿하네?"라고 느끼면, 스스로 현미경 (줌인 도구) 을 꺼내서 그 부분만 확대해 봅니다.
    • 예시: "이 옷이 젖었을까?"라고 물으면, 전체 사진을 보는 것만으로는 알 수 없습니다. DeepEyes 는 "옷의 물방울을 보려면 확대해야겠다"라고 생각하며 해당 부분을 확대해 보고, 물방울이 있는지 확인한 뒤 "네, 젖어 있습니다"라고 답합니다.

이 과정은 이미지와 글자가 섞여 있는 대화 (iMCoT) 형태로 이루어집니다.

"저기 시계가 보이나요?"
→ "글쎄요, 오른쪽 책상 위에는 노트북만 보이네요. 하지만 왼쪽 구석에 뭔가 있을 수도 있겠어요. 확대해 볼까요?" (확대 실행)
→ "아! 책장 위에 둥근 시계가 있네요! 네, 시계가 있습니다."

3. 훈련 과정: "어린아이의 성장 과정"

DeepEyes 는 처음부터 완벽하지 않았습니다. 강화 학습을 통해 세 단계를 거치며 성장했습니다.

  1. 탐험 단계 (초기): "무엇을 봐야 할지 모르겠네." 아무 곳이나 확대해보지만, 중요한 부분을 놓치거나 헛수고를 합니다. (실수 많음)
  2. 과잉 단계 (중기): "확대하는 게 좋구나!"라고 생각해서 너무 자주 확대합니다. 모든 것을 확대해보지만, 비효율적입니다. (성능은 오름)
  3. 숙련 단계 (후기): "어디를 봐야 할지 정확히 알겠어." 필요할 때만 정확히 확대하여 빠르고 정확하게 답을 냅니다. (최고의 성능)

이처럼 DeepEyes 는 **인간의 시각적 추론 과정 (먼저 대략 보고, 궁금하면 자세히 보는 것)**을 자연스럽게 모방하게 되었습니다.

4. 왜 이것이 중요한가요?

  • 할루시네이션 (환각) 감소: AI 가 없는 것을 있는 것처럼 말하거나, 잘못된 정보를 지어내는 경우가 많은데, DeepEyes 는 직접 눈으로 확인하므로 이런 실수가 크게 줄어듭니다.
  • 고해상도 이미지 처리: 아주 작은 글자나 미세한 차이를 구별해야 하는 문제 (예: 복잡한 차트 읽기, 작은 물체 찾기) 에서 기존 모델보다 훨씬 뛰어납니다.
  • 추가 도구 불필요: 별도의 복잡한 프로그램이나 외부 도구를 연결할 필요 없이, 모델 자체가 스스로 눈을 뜨고 보는 능력을 갖췄습니다.

5. 결론: AI 가 '생각'하는 방식의 변화

DeepEyes 는 단순히 "그림을 보고 답을 맞추는" 수준을 넘어, 그림을 보며 '생각'하는 새로운 단계로 나아갔습니다. 마치 우리가 문제를 풀 때, "잠깐, 이 부분을 자세히 봐야겠다"라고 생각하며 돋보기를 들이대는 것처럼, AI 도 스스로 어디를 집중해야 할지 판단하고 행동합니다.

이 기술은 앞으로 AI 가 복잡한 시각적 문제를 해결하고, 인간의 사고 과정에 더 가까운 지능을 갖추는 데 큰 발걸음이 될 것입니다.