DeepEyesV2: Toward Agentic Multimodal Model

이 논문은 텍스트와 이미지 이해를 넘어 외부 도구를 능동적으로 활용하는 에이전트형 멀티모달 모델 'DeepEyesV2'를 제안하며, 도구 사용 패턴 확립을 위한 콜드스타트 단계와 정교화를 위한 강화학습 단계를 포함한 2 단계 학습 파이프라인과 새로운 벤치마크 'RealX-Bench'를 통해 실세계 다중 능력 통합의 효과를 입증합니다.

Jack Hong, Chenxiao Zhao, ChengLin Zhu, Weiheng Lu, Guohai Xu, Xing Yu

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

DeepEyesV2: "눈이 밝아진 AI"가 어떻게 문제를 해결하는가?

이 논문은 **'DeepEyesV2'**라는 새로운 인공지능 모델을 소개합니다. 기존의 AI가 단순히 그림을 보고 "이건 개야"라고 말하는 것을 넘어, **스스로 도구를 꺼내 써서 문제를 해결하는 '능동적인 AI'**를 만드는 방법을 다룹니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 기존 AI vs. DeepEyesV2: "수동적인 학생" vs. "현실적인 탐정"

  • 기존 AI (수동적인 학생):
    시험지를 받으면 머릿속에 있는 지식만 가지고 답을 쓰려고 합니다. 만약 시험지에 낯선 그림이 나오거나, 최신 뉴스가 필요하면 "모르겠어요"라고 하거나, 엉뚱한 답을 지어냅니다 (할루시네이션). 마치 책상 위에 있는 교과서만 보고 시험을 보는 학생과 같습니다.

  • DeepEyesV2 (현실적인 탐정):
    문제를 받으면 바로 답을 쓰지 않습니다.

    1. 눈을 크게 뜨고 (이미지 확대): 그림의 작은 부분까지 자세히 봅니다.
    2. 도구를 꺼냅니다 (코드 실행): "이 숫자를 계산해 볼까?"라고 생각하면 직접 계산기를 켜서 코드를 짭니다.
    3. 인터넷을 검색합니다 (웹 검색): "이 꽃이 뭐지?"라고 물으면 바로 검색창을 열어 최신 정보를 찾아옵니다.
    4. 모든 정보를 합쳐서 답을 냅니다.
      마치 현장에서 증거를 수집하고, 전문가에게 물어보고, 계산기를 두드리며 사건을 해결하는 탐정과 같습니다.

2. 어떻게 가르쳤을까요? (두 단계 훈련법)

연구자들은 이 AI에게 "도구를 써라!"라고 바로 말했지만, AI는 도구를 제대로 쓰지 못했습니다. 그래서 두 단계로 나누어 가르쳤습니다.

1 단계: "초보 실습" (Cold Start)

  • 상황: AI에게 "도구를 써서 문제를 풀어봐"라고 했더니, AI는 엉뚱한 코드를 짜거나 도구를 안 쓰는 경우가 많았습니다.
  • 해결책: 먼저 정답이 있는 예제를 많이 보여줬습니다. "이런 문제일 때는 이렇게 확대하고, 저런 문제일 때는 이렇게 검색해"라고 모범 답안을 보여주며 기본기를 다졌습니다.
  • 비유: 요리 학교에서 처음엔 레시피를 보고 따라 하며 기본기를 익히는 단계입니다.

2 단계: "실전 훈련" (강화 학습)

  • 상황: 기본기는 다졌으니, 이제 스스로 판단하게 했습니다.
  • 해결책: AI가 문제를 풀 때 **정답을 맞히면 칭찬 (보상)**을 주고, 틀리면 다시 생각하게 했습니다. AI는 "아, 이 문제는 검색이 필요했구나", "저 문제는 계산이 필요했구나"를 스스로 깨닫게 됩니다.
  • 비유: 이제 실제 식당에서 손님 주문을 받고 상황에 따라 재료를 고르고 조리법을 결정하는 실전 훈련 단계입니다.

3. 새로운 시험지: "RealX-Bench"

기존 시험지들은 "그림을 잘 보나?", "글을 잘 읽나?"를 따로 따로 시험했습니다. 하지만 현실 세계는 그림, 검색, 계산이 섞여 있습니다.

  • 새로운 시험지 (RealX-Bench):
    "이 사진 속 주식 차트를 보고, 같은 날 다른 회사의 주가도 검색해서 비교해 봐" 같은 복합적인 문제를 냈습니다.
    • 결과: DeepEyesV2 는 기존 AI 들보다 훨씬 잘 풀었습니다. 특히 그림을 잘 보고, 검색도 잘하고, 논리도 잘 통하는 종합적인 능력을 보여줬습니다.

4. DeepEyesV2 의 특별한 능력: "상황에 맞는 도구 선택"

이 AI 의 가장 큰 장점은 무작정 도구를 쓰는 게 아니라, 상황에 맞춰 선택한다는 점입니다.

  • 그림을 봐야 할 때: "확대경 (Crop)"을 꺼내서 꽃잎의 무늬를 자세히 봅니다.
  • 숫자를 계산해야 할 때: "계산기 (코드 실행)"를 켜서 정확한 값을 구합니다.
  • 지식이 필요할 때: "검색 엔진"을 열어 최신 정보를 찾습니다.

처음엔 도구를 너무 많이 썼지만, 훈련을 거치면서 **"이건 내가 머리로 풀 수 있겠네, 검색은 안 해도 되겠다"**라고 판단하게 되어 더 똑똑하고 효율적이 되었습니다.


5. 결론: 왜 이것이 중요한가요?

DeepEyesV2 는 AI 가 단순히 "지식"을 가진 것을 넘어, **현실 세계의 복잡한 문제를 스스로 해결하는 '행동하는 AI(에이전트)'**로 발전했음을 보여줍니다.

  • 의미: 앞으로 AI 는 의사가 진단할 때 최신 논문도 검색하고, 화가 그림을 그릴 때 색상을 정확히 계산하고, 투자자가 주식을 분석할 때 실시간 데이터를 찾아주는 진짜 파트너가 될 수 있습니다.

한 줄 요약:

"DeepEyesV2 는 눈이 밝아지고, 손이 빨라지며, 머리가 좋아진 AI로, 문제를 해결할 때 필요한 도구를 스스로 찾아서 완벽하게 사용합니다."