Each language version is independently generated for its own context, not a direct translation.

DeepEyes: 그림을 보며 '생각하는' 인공지능의 이야기

이 논문은 **"DeepEyes"**라는 새로운 인공지능 모델을 소개합니다. 기존 AI 들은 주로 텍스트 (글자) 만 보고 추론하는 데 익숙했지만, DeepEyes 는 눈을 통해 세상을 직접 보고, 그 정보를 바탕으로 생각하며 답을 찾는 능력을 배웠습니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 기존 AI vs DeepEyes: "눈을 감고 추측하는 사람" vs "눈을 뜨고 확인하는 탐정"

기존 AI (텍스트 중심 추론):
imagine 하세요. 어두운 방에서 누군가에게 "이 방에 시계가 있나요?"라고 물어본다고 가정해 봅시다. 기존 AI 는 방을 직접 보지 않고, "아, 거실에는 보통 시계가 있지. 아마 있겠지?"라고 글자만 보고 추측합니다. 이때 실수 (환각) 가 자주 발생합니다.
DeepEyes (이미지 중심 추론):
DeepEyes 는 다릅니다. "잠깐, 방을 자세히 봐야겠어"라고 말합니다. 그리고 눈을 크게 뜨고 (줌인) 방 구석구석을 살피며, "아, 책장 위에 둥근 물체가 있네! 이게 시계인가?"라고 직접 확인한 후 답을 합니다.

이 모델은 **강화 학습 (Reinforcement Learning)**이라는 훈련 방식을 통해, 정답을 맞출 때 "잘했다!"는 보상을 받으며 스스로 어디를, 어떻게 자세히 봐야 하는지를 배웠습니다.

2. 핵심 기술: "능동적인 지각 (Active Perception)"

DeepEyes 의 가장 큰 특징은 스스로 결정한다는 점입니다.

비유: 현미경을 든 과학자
평소에는 넓은 시야로 전체를 봅니다. 하지만 "어? 이 부분이 흐릿하네?"라고 느끼면, 스스로 현미경 (줌인 도구) 을 꺼내서 그 부분만 확대해 봅니다.
- 예시: "이 옷이 젖었을까?"라고 물으면, 전체 사진을 보는 것만으로는 알 수 없습니다. DeepEyes 는 "옷의 물방울을 보려면 확대해야겠다"라고 생각하며 해당 부분을 확대해 보고, 물방울이 있는지 확인한 뒤 "네, 젖어 있습니다"라고 답합니다.

이 과정은 이미지와 글자가 섞여 있는 대화 (iMCoT) 형태로 이루어집니다.

"저기 시계가 보이나요?"
→ "글쎄요, 오른쪽 책상 위에는 노트북만 보이네요. 하지만 왼쪽 구석에 뭔가 있을 수도 있겠어요. 확대해 볼까요?" (확대 실행)
→ "아! 책장 위에 둥근 시계가 있네요! 네, 시계가 있습니다."

3. 훈련 과정: "어린아이의 성장 과정"

DeepEyes 는 처음부터 완벽하지 않았습니다. 강화 학습을 통해 세 단계를 거치며 성장했습니다.

탐험 단계 (초기): "무엇을 봐야 할지 모르겠네." 아무 곳이나 확대해보지만, 중요한 부분을 놓치거나 헛수고를 합니다. (실수 많음)
과잉 단계 (중기): "확대하는 게 좋구나!"라고 생각해서 너무 자주 확대합니다. 모든 것을 확대해보지만, 비효율적입니다. (성능은 오름)
숙련 단계 (후기): "어디를 봐야 할지 정확히 알겠어." 필요할 때만 정확히 확대하여 빠르고 정확하게 답을 냅니다. (최고의 성능)

이처럼 DeepEyes 는 **인간의 시각적 추론 과정 (먼저 대략 보고, 궁금하면 자세히 보는 것)**을 자연스럽게 모방하게 되었습니다.

4. 왜 이것이 중요한가요?

할루시네이션 (환각) 감소: AI 가 없는 것을 있는 것처럼 말하거나, 잘못된 정보를 지어내는 경우가 많은데, DeepEyes 는 직접 눈으로 확인하므로 이런 실수가 크게 줄어듭니다.
고해상도 이미지 처리: 아주 작은 글자나 미세한 차이를 구별해야 하는 문제 (예: 복잡한 차트 읽기, 작은 물체 찾기) 에서 기존 모델보다 훨씬 뛰어납니다.
추가 도구 불필요: 별도의 복잡한 프로그램이나 외부 도구를 연결할 필요 없이, 모델 자체가 스스로 눈을 뜨고 보는 능력을 갖췄습니다.

5. 결론: AI 가 '생각'하는 방식의 변화

DeepEyes 는 단순히 "그림을 보고 답을 맞추는" 수준을 넘어, 그림을 보며 '생각'하는 새로운 단계로 나아갔습니다. 마치 우리가 문제를 풀 때, "잠깐, 이 부분을 자세히 봐야겠다"라고 생각하며 돋보기를 들이대는 것처럼, AI 도 스스로 어디를 집중해야 할지 판단하고 행동합니다.

이 기술은 앞으로 AI 가 복잡한 시각적 문제를 해결하고, 인간의 사고 과정에 더 가까운 지능을 갖추는 데 큰 발걸음이 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

DeepEyes: 강화학습을 통한 '이미지로 사고하기' 유도 기술 요약

이 논문은 비전-언어 모델 (VLM) 이 텍스트 기반 추론에 머무르지 않고, 인간의 인지 과정과 유사하게 **이미지를 직접 참조하며 추론하는 능력 ("Thinking with Images")**을 강화학습 (Reinforcement Learning, RL) 을 통해 학습시키는 DeepEyes를 제안합니다.

1. 문제 정의 (Problem)

기존의 대규모 비전 - 언어 모델 (VLM) 은 멀티모달 이해 능력이 뛰어나지만, 추론 과정이 주로 텍스트에 의존하는 한계가 있습니다.

인지적 불일치: 인간의 추론은 시각적 고정점 (visual fixations) 을 통해 정보를 순차적으로 추출하며 이미지와 사고를 통합합니다. 그러나 기존 모델은 복잡한 시각적 정보를 텍스트 추론 (Chain-of-Thought, CoT) 에 효과적으로 통합하지 못합니다.
기존 방법의 한계: 최근 일부 연구는 사전 정의된 워크플로우나 외부 도구를 사용하여 시각 정보를 CoT 에 포함시키려 시도했으나, 모듈식 설계로 인해 성능이 최적화되지 못하거나 (Suboptimal), 별도의 전문 모델/API 에 의존해야 하는 문제가 있었습니다.
콜드스타트 (Cold-start) 문제: 기존 강화학습 기반 추론 모델들은 초기 학습을 위해 방대한 양의 사전 수집된 추론 데이터 (SFT) 가 필요했습니다.

2. 방법론 (Methodology)

DeepEyes 는 End-to-End 강화학습을 통해 모델이 스스로 시각적 정보를 탐색하고 추론에 활용하는 능동적 지각 (Active Perception) 능력을 획득하도록 설계되었습니다.

핵심 메커니즘: 교차 멀티모달 CoT (iMCoT)

능동적 지각 (Active Perception): 모델은 추론 과정에서 필요하다고 판단되면 스스로 **이미지 확대 (Zoom-in)**를 수행합니다. 이는 바운딩 박스 좌표를 생성하여 해당 영역을 자른 이미지 (Crop) 를 생성하고, 이를 기존 텍스트 추론 흐름에 삽입하는 방식입니다.
SFT 부재: 별도의 콜드스타트 SFT 나 외부 전문 모델 없이, 오직 **결과 기반 보상 (Outcome Reward)**만으로 학습이 이루어집니다. 모델의 내재된 그라운딩 (Grounding) 능력을 도구로 활용합니다.

강화학습 전략

보상 설계 (Reward Design):
- 정확도 보상 ( $R_{acc}$ ): 최종 답변의 정확도.
- 형식 보상 ( $R_{format}$ ): 출력 형식의 적절성.
- 조건부 도구 보상 ( $R_{tool}$ ): 핵심 전략으로, 모델이 **능동적 지각 (확대)**을 수행하고 정답을 맞췄을 때만 추가 보너스를 부여합니다. 이는 불필요한 확대를 억제하고, 시각적 정보가 필요한 상황에서만 전략적으로 도구를 사용하도록 유도합니다.
데이터 선별 (Data Selection):
- 초기 RL 샘플링 효율을 높이기 위해, 능동적 지각이 필수적인 데이터 (세밀한 시각적 정보가 필요한 샘플) 를 선별하여 학습 코퍼스를 구성했습니다.
- 너무 쉬운 데이터나 너무 어려운 데이터를 필터링하고, 시각적 지각과 추론 능력을 모두 강화할 수 있는 데이터 (V*, ArxivQA, ThinkLite-VL 등) 를 조합했습니다.
최적화: Group Relative Policy Optimization (GRPO) 을 사용하여 전체 추론 궤적 (텍스트 + 시각 토큰) 을 End-to-End 로 최적화합니다.

3. 주요 기여 (Key Contributions)

SFT 없는 '이미지로 사고하기' 구현: 외부 도구나 사전 수집된 추론 데이터 없이, 강화학습만으로 모델이 시각적 정보를 전략적으로 활용하는 능력을 자연스럽게 발현시켰습니다.
능동적 지각 유도 전략: 데이터 선별 메커니즘과 조건부 보상 전략을 통해 모델이 시각적 탐색 (Search), 비교 (Comparison), 확인 (Confirmation) 등의 인간 유사 추론 패턴을 학습하도록 유도했습니다.
학습 역학의 발견: RL 학습 과정에서 모델의 능동적 지각 행동이 (1) 초기 탐색 $\rightarrow$ (2) 빈번한 활용 $\rightarrow$ (3) 효율적이고 선택적인 활용의 세 단계를 거치며 진화함을 관찰했습니다.
할루시네이션 감소: 시각적 증거를 기반으로 추론을 재검증함으로써 언어적 편향 (Language Bias) 으로 인한 할루시네이션을 효과적으로 완화했습니다.

4. 실험 결과 (Results)

DeepEyes 는 7B 파라미터 모델임에도 불구하고 다양한 벤치마크에서 기존 SOTA 모델들을 능가하는 성능을 보였습니다.

고해상도 벤치마크:
- V Bench:* 90.1% 정확도 (Qwen2.5-VL 7B 대비 +18.9% 향상).
- HR-Bench (4K/8K): 각각 6.3% 와 7.3% 향상.
- 복잡한 파이프라인을 사용하는 기존 방법들 (SEAL, DyFo 등) 보다 단순한 RL 만으로 더 우수한 성능을 달성했습니다.
일반 지각 및 추론: MME-RealWorld-Lite 에서 7B 및 32B 모델 대비 최상위 성능을 기록했습니다.
지정 (Grounding) 및 할루시네이션: refCOCO 등 지향성 벤치마크에서 정확도가 향상되었고, POPE 벤치마크에서 할루시네이션이 크게 감소했습니다.
수학적 추론: MathVista, MathVerse 등 복잡한 수학 문제 해결 능력도 향상되었습니다.

5. 의의 및 결론 (Significance)

DeepEyes 는 VLM 이 **인간의 시각적 추론 과정 (시각적 탐색, 비교, 확인)**을 모방하여 복잡한 시각적 문제를 해결할 수 있음을 입증했습니다.

효율성: 별도의 복잡한 워크플로우나 외부 도구가 필요 없어 시스템이 단순하고 확장 가능합니다.
해석 가능성: 모델이 언제, 왜 이미지를 확대하는지 그 과정을 명확하게 추적할 수 있어 (Interleaved CoT), AI 의 의사결정 과정을 투명하게 이해할 수 있습니다.
미래 방향: 단순한 확대 (Crop) 를 넘어 검색, 선 그리기 등 다양한 도구를 통합할 수 있는 기반을 마련하여, 진정한 멀티모달 에이전트 개발의 중요한 한 걸음을 내디뎠습니다.

결론적으로, DeepEyes 는 "텍스트로만 생각하는 AI"에서 "이미지를 보고 사고하는 AI"로의 전환을 가능하게 하는 강력한 프레임워크를 제시합니다.

DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning