Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

Each language version is independently generated for its own context, not a direct translation.

기존의 Multimodal(멀티모달) AI 는 사진을 보고 질문에 답할 때, "사진 전체를 검색창에 던져넣고 한 번만 검색해서 답을 찾으려" 했습니다.

비유: 마치 거대한 도서관에서 책 한 권을 찾으려 할 때, 도서관 전체를 한 번에 훑어보는 것과 같습니다.
문제점:
1. 노이즈 (소음) 문제: 사진에는 찾고 싶은 대상 말고도 배경이나 다른 사물이 많을 수 있습니다. 전체를 검색하면 AI 는 "이게 뭐지?" 하며 헷갈려 하거나, 엉뚱한 정보를 가져옵니다. (예: '레브론 제임스'가 있는 농구 경기 사진을 검색했는데, 배경의 광고판만 검색되어 엉뚱한 결과가 나오는 경우)
2. 얕은 탐구: AI 는 보통 1~2 번 검색하고 멈춥니다. 하지만 진짜 복잡한 질문 (예: "이 사진 속 사람의 딸이 다니는 학교의 교장은 누구인가?") 은 여러 단계를 거쳐야 답이 나옵니다. 기존 AI 는 여기서 포기해버립니다.

저자들은 이 문제를 해결하기 위해 Vision-DeepResearch를 만들었습니다. 이 AI 는 다음과 같이 행동합니다.

비유 1: 사진 자르기 (멀티 스케일 검색)
- AI 는 사진 전체를 검색하는 대신, 사진 속 관심 있는 부분만 잘라내어 (자르기) 검색합니다.
- 마치 현미경을 쓰듯, 처음엔 넓은 시야로 보고, 안 보이면 **줌 (Zoom)**을 해서 더 자세히 보고, 또 안 보이면 다른 각도에서 다시 잘라내어 검색합니다.
- 이렇게 하면 "찾고 싶은 사람"이 배경에 가려져 있더라도, 얼굴 부분만 잘라내면 정확하게 찾아낼 수 있습니다.
비유 2: 끈질긴 탐정 (딥러서치)
- AI 는 "일단 검색해봤는데 답이 없네? 그럼 다른 단어로 다시 검색해볼까?"라고 생각하며 수십 번, 수백 번 검색을 반복합니다.
- 텍스트 검색도 마찬가지입니다. "레브론 제임스"라고 검색해서 안 되면, "LA 레이커스 2024 시즌"이라고 검색하고, 또 안 되면 "크립토.com 아레나"라고 검색하는 식으로 여러 단계를 거치며 (Multi-hop) 정보를 연결합니다.

AI 가 처음부터 이렇게 잘할 수는 없습니다. 저자들은 AI 에게 가상의 훈련 과정을 시켰습니다.

가상의 훈련 시나리오 (데이터 생성):
- 연구진은 AI 가 "실제 검색 엔진"에서 실패하고, 다시 시도하고, 결국 성공하는 수천 개의 시뮬레이션 데이터를 만들었습니다.
- 마치 게임 시뮬레이션처럼, AI 가 "이 사진에서 고양이 이름을 찾으라"는 미션을 받으면, 고양이를 찾아서 검색하고, 그 고양이의 주인을 찾아서 검색하고, 그 주인의 직장을 찾아서 검색하는 과정을 반복하게 훈련시켰습니다.
- 특히, 질문을 의도적으로 어렵게 (모호하게) 만들어서 AI 가 더 깊게 생각하게 만들었습니다. (예: "이 사진 속 고양이의 이름은?" → "이 고양이 주인이 다니는 회사의 대표가 쓴 책 제목은?")
학습 방법:
1. 지도 학습 (SFT): 잘 만든 시나리오를 보여주며 "이렇게 하라"고 가르쳤습니다.
2. 강화 학습 (RL): AI 가 스스로 검색을 해보게 하고, 정답을 맞추면 점수를 주고, 틀리면 다시 하도록 훈련시켰습니다. 이 과정에서 AI 는 "어떤 검색어가 가장 효과적인지" 스스로 깨닫게 됩니다.

이 기술을 적용한 결과, 놀라운 일이 일어났습니다.

기존의 거대 AI (GPT-5, Gemini 등) 와 비교: 보통 비싼 유료 AI 가 더 잘한다고 생각하지만, 이 연구로 만든 AI 는 **작은 모델 (8B, 30B)**임에도 불구하고, 거대 상용 모델들보다 더 정확하고 빠르며 복잡한 문제를 잘 해결했습니다.
핵심 성과: 사진 속의 작은 디테일까지 찾아내고, 여러 단계를 거쳐 복잡한 사실을 추론하는 능력에서 압도적인 성능을 보였습니다.

"이전 AI 가 사진을 보고 '한 번 검색'으로 답을 찾으려다 헛걸음했다면, 이 새로운 AI 는 사진의 일부를 잘라내어 여러 번 검색하고, 여러 단계를 거쳐 끈질기게 정보를 찾아내는 '초능력의 디지털 탐정'이 되었습니다."

이 기술은 앞으로 의료 영상 분석, 복잡한 뉴스 분석, 혹은 일상생활에서 사진으로 궁금한 점을 해결할 때 훨씬 더 똑똑하고 신뢰할 수 있는 AI 를 만들어줄 것입니다.

유사한 논문