Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

이 논문은 복잡한 시각적 노이즈와 다양한 정보 소스가 필요한 현실 세계의 문제를 해결하기 위해, 다중 턴·다중 엔티티·다중 스케일의 검색을 수행하고 강화학습을 통해 심층 연구 능력을 내재화한 새로운 멀티모달 딥러닝 모델 'Vision-DeepResearch'를 제안합니다.

Wenxuan Huang, Yu Zeng, Qiuchen Wang, Zhen Fang, Shaosheng Cao, Zheng Chu, Qingyu Yin, Shuang Chen, Zhenfei Yin, Lin Chen, Zehui Chen, Xu Tang, Yao Hu, Philip Torr, Feng Zhao, Wanli Ouyang

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 기존 AI 의 문제: "한 번에 다 찾으려다 망하는 상황"

기존의 Multimodal(멀티모달) AI 는 사진을 보고 질문에 답할 때, "사진 전체를 검색창에 던져넣고 한 번만 검색해서 답을 찾으려" 했습니다.

  • 비유: 마치 거대한 도서관에서 책 한 권을 찾으려 할 때, 도서관 전체를 한 번에 훑어보는 것과 같습니다.
  • 문제점:
    1. 노이즈 (소음) 문제: 사진에는 찾고 싶은 대상 말고도 배경이나 다른 사물이 많을 수 있습니다. 전체를 검색하면 AI 는 "이게 뭐지?" 하며 헷갈려 하거나, 엉뚱한 정보를 가져옵니다. (예: '레브론 제임스'가 있는 농구 경기 사진을 검색했는데, 배경의 광고판만 검색되어 엉뚱한 결과가 나오는 경우)
    2. 얕은 탐구: AI 는 보통 1~2 번 검색하고 멈춥니다. 하지만 진짜 복잡한 질문 (예: "이 사진 속 사람의 딸이 다니는 학교의 교장은 누구인가?") 은 여러 단계를 거쳐야 답이 나옵니다. 기존 AI 는 여기서 포기해버립니다.

2. 이 연구의 해결책: "탐정처럼 끈질기게 파고드는 AI"

저자들은 이 문제를 해결하기 위해 Vision-DeepResearch를 만들었습니다. 이 AI 는 다음과 같이 행동합니다.

  • 비유 1: 사진 자르기 (멀티 스케일 검색)

    • AI 는 사진 전체를 검색하는 대신, 사진 속 관심 있는 부분만 잘라내어 (자르기) 검색합니다.
    • 마치 현미경을 쓰듯, 처음엔 넓은 시야로 보고, 안 보이면 **줌 (Zoom)**을 해서 더 자세히 보고, 또 안 보이면 다른 각도에서 다시 잘라내어 검색합니다.
    • 이렇게 하면 "찾고 싶은 사람"이 배경에 가려져 있더라도, 얼굴 부분만 잘라내면 정확하게 찾아낼 수 있습니다.
  • 비유 2: 끈질긴 탐정 (딥러서치)

    • AI 는 "일단 검색해봤는데 답이 없네? 그럼 다른 단어로 다시 검색해볼까?"라고 생각하며 수십 번, 수백 번 검색을 반복합니다.
    • 텍스트 검색도 마찬가지입니다. "레브론 제임스"라고 검색해서 안 되면, "LA 레이커스 2024 시즌"이라고 검색하고, 또 안 되면 "크립토.com 아레나"라고 검색하는 식으로 여러 단계를 거치며 (Multi-hop) 정보를 연결합니다.

3. 어떻게 이렇게 똑똑하게 만들었을까요? (데이터와 학습)

AI 가 처음부터 이렇게 잘할 수는 없습니다. 저자들은 AI 에게 가상의 훈련 과정을 시켰습니다.

  • 가상의 훈련 시나리오 (데이터 생성):

    • 연구진은 AI 가 "실제 검색 엔진"에서 실패하고, 다시 시도하고, 결국 성공하는 수천 개의 시뮬레이션 데이터를 만들었습니다.
    • 마치 게임 시뮬레이션처럼, AI 가 "이 사진에서 고양이 이름을 찾으라"는 미션을 받으면, 고양이를 찾아서 검색하고, 그 고양이의 주인을 찾아서 검색하고, 그 주인의 직장을 찾아서 검색하는 과정을 반복하게 훈련시켰습니다.
    • 특히, 질문을 의도적으로 어렵게 (모호하게) 만들어서 AI 가 더 깊게 생각하게 만들었습니다. (예: "이 사진 속 고양이의 이름은?" → "이 고양이 주인이 다니는 회사의 대표가 쓴 책 제목은?")
  • 학습 방법:

    1. 지도 학습 (SFT): 잘 만든 시나리오를 보여주며 "이렇게 하라"고 가르쳤습니다.
    2. 강화 학습 (RL): AI 가 스스로 검색을 해보게 하고, 정답을 맞추면 점수를 주고, 틀리면 다시 하도록 훈련시켰습니다. 이 과정에서 AI 는 "어떤 검색어가 가장 효과적인지" 스스로 깨닫게 됩니다.

4. 결과: 작은 모델도 거인보다 잘합니다!

이 기술을 적용한 결과, 놀라운 일이 일어났습니다.

  • 기존의 거대 AI (GPT-5, Gemini 등) 와 비교: 보통 비싼 유료 AI 가 더 잘한다고 생각하지만, 이 연구로 만든 AI 는 **작은 모델 (8B, 30B)**임에도 불구하고, 거대 상용 모델들보다 더 정확하고 빠르며 복잡한 문제를 잘 해결했습니다.
  • 핵심 성과: 사진 속의 작은 디테일까지 찾아내고, 여러 단계를 거쳐 복잡한 사실을 추론하는 능력에서 압도적인 성능을 보였습니다.

5. 한 줄 요약

"이전 AI 가 사진을 보고 '한 번 검색'으로 답을 찾으려다 헛걸음했다면, 이 새로운 AI 는 사진의 일부를 잘라내어 여러 번 검색하고, 여러 단계를 거쳐 끈질기게 정보를 찾아내는 '초능력의 디지털 탐정'이 되었습니다."

이 기술은 앞으로 의료 영상 분석, 복잡한 뉴스 분석, 혹은 일상생활에서 사진으로 궁금한 점을 해결할 때 훨씬 더 똑똑하고 신뢰할 수 있는 AI 를 만들어줄 것입니다.