Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

이 논문은 기존 벤치마크의 한계를 극복하고 현실적인 조건을 반영한 '비전-딥리서치 벤치마크 (VDR-Bench)'를 구축하고, 이를 통해 현재 멀티모달 모델의 시각적 검색 능력을 향상시키기 위한 다중 라운드 크롭 검색 워크플로우를 제안합니다.

Yu Zeng, Wenxuan Huang, Zhen Fang, Shuang Chen, Yufan Shen, Yishuo Cai, Xiaoman Wang, Zhenfei Yin, Lin Chen, Zehui Chen, Shiting Huang, Yiming Zhao, Xu Tang, Yao Hu, Philip Torr, Wanli Ouyang, Shaosheng Cao

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 가 눈과 귀를 모두 열어놓고, 진짜 세상의 정보를 찾아내는 능력을 어떻게 제대로 시험할 것인가?"**에 대한 이야기입니다.

기존의 AI 평가 방식이 얼마나 엉뚱했는지 지적하고, 더 현실적인 새로운 시험지 (VDR-Bench) 와 그걸 잘 풀 수 있는 새로운 전략을 제안합니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 문제: "왜 기존 시험지는 AI 를 속였을까?"

지금까지 AI 의 '시각 검색 능력'을 시험할 때, 두 가지 큰 함정이 있었습니다.

함정 1: "눈을 감고도 풀리는 문제" (텍스트 단서 유출)

  • 비유: 시험지가 "이 사진 속의 축구 경기장은 어디일까요?"라고 물었는데, 보기 중에 "독일의 홈구장"이라는 힌트가 숨어있거나, AI 가 이미 "보루시아 도르트문트"라는 팀을 알고 있어서 사진을 보지 않아도 정답을 맞히는 경우입니다.
  • 현실: AI 가 사진을 보고 직접 찾아보지 않아도, 질문의 문장이나 AI 가 이미 알고 있는 상식만으로도 정답을 맞출 수 있었습니다. 그래서 "AI 가 정말로 사진을 잘 보는지"를 알 수 없었습니다.

함정 2: "완벽한 단서만 주는 상황" (너무 이상적인 검색)

  • 비유: "이 사진 속의 건물을 찾아보세요"라고 했을 때, 검색 엔진이 정확히 똑같은 사진을 바로 찾아주는 경우입니다. 마치 도서관에서 책 제목을 외우고 바로 책장 끝에서 책을 꺼내는 것과 같습니다.
  • 현실: 실제 세상에서는 사진이 흐리거나, 배경에 다른 사물이 섞여 있거나, 정확한 이름이 모호합니다. 하지만 기존 시험지는 AI 가 "완벽한 단서"만 주어지는 상황만 경험하게 해서, 실제 복잡한 상황을 헤쳐나가는 능력을 제대로 평가하지 못했습니다.

2. 해결책: "새로운 시험지 VDR-Bench"

저자들은 **"진짜 AI 는 어떻게 행동해야 할까?"**를 기준으로 2,000 개의 새로운 문제를 만들었습니다.

  • 시각 중심의 문제: "이건 텍스트로만 풀 수 없어! 반드시 사진을 잘게 잘라보고, 그 부분을 검색해서 답을 찾아야 해!"라는 문제들입니다.
  • 현실적인 난이도: 사진 전체를 한 번에 검색하는 게 아니라, 관심 있는 부분 (예: 로고, 건물 모서리) 을 잘라내서 (Crop) 여러 번 검색해야 답이 나오는 복잡한 미로 같은 문제들입니다.

핵심 비유:

기존 시험지는 **"전체 지도를 줘서 목적지를 찾게 하는 것"**이었다면,
새로운 시험지 (VDR-Bench) 는 **"지도의 일부만 줘서, 주변을 둘러보며 여러 번 길을 물어봐야 목적지를 찾을 수 있게 하는 것"**입니다.


3. 새로운 전략: "조금씩 잘라내서 찾아보기 (Multi-round Cropped-Search)"

AI 가 이 새로운 시험지를 잘 풀기 위해 저자들은 아주 간단한 전략을 제안했습니다.

  • 전략: "한 번에 다 보지 마! 사진의 중요한 부분만 자르고 (Crop), 그 부분을 검색해. 답이 안 나오면 다른 부분을 잘라서 다시 검색해."
  • 비유:

    어두운 방에서 물건을 찾을 때, 손전등을 켜고 전체를 한 번 훑어보는 것 (기존 방식) 은 소용없습니다.
    대신, 손전등을 특정 물건에 비추고, 그 주변을 자세히 살피고, 또 다른 곳으로 비추며 하나씩 찾아나가는 방식이 훨씬 효과적입니다.
    이 논문은 AI 에게 "손전등을 여러 번 비추며 (다중 라운드 검색)" 정보를 모으라고 가르쳤습니다.


4. 결론: 무엇을 배웠을까?

  1. 기존 평가는 속임수였다: 많은 AI 가 "눈을 감고도" (텍스트나 기억력만으로) 문제를 풀고 있었습니다.
  2. 새로운 기준이 필요하다: AI 가 실제로 사진을 보고, 잘게 잘라 검색하고, 여러 단서를 연결해 답을 찾아내는 능력을 평가해야 합니다.
  3. 단순한 전략이 효과적이다: AI 가 무조건 똑똑해져야 하는 게 아니라, "사진의 중요한 부분을 잘라내서 여러 번 검색하는" 간단한 습관만 들여도 성능이 크게 좋아집니다.

한 줄 요약:

"AI 에게는 **사진을 통째로 보는 게 아니라, 중요한 부분을 잘라내며 여러 번 찾아보는 '탐정 습관'**을 가르쳐야 진짜 실력을 알 수 있다!"