VisBrowse-Bench: Benchmarking Visual-Native Search for Multimodal Browsing Agents

이 논문은 웹 페이지의 시각적 정보를 본질적으로 활용하는 검색 에이전트의 능력을 평가하기 위해 새로운 벤치마크인 VisBrowse-Bench 와 에이전트 워크플로우를 제안하고, 현재 최첨단 모델들조차 시각적 추론에서 낮은 성능을 보임을 입증합니다.

Zhengbo Zhang, Jinbo Su, Zhaowen Zhou, Changtao Miao, Yuhan Hong, Qimeng Wu, Yumeng Liu, Feier Wu, Yihe Tian, Yuhao Liang, Zitong Shan, Wanke Xia, Yi-Fan Zhang, Bo Zhang, Zhe Li, Shiming Xiang, Ying Y
게시일 2026-03-18
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

VisBrowse-Bench: "눈을 뜨고 검색하는 AI"를 위한 새로운 시험지

안녕하세요! 오늘 소개해 드릴 논문은 인공지능 (AI) 이 인터넷을 검색할 때, 단순히 '글자'만 읽는 게 아니라 '이미지'도 제대로 보고 이해할 수 있는지 테스트하는 새로운 기준을 만들었다는 이야기입니다.

이 내용을 마치 새로운 요리 대회를 준비하는 상황으로 비유해서 쉽게 설명해 드릴게요.


1. 기존 문제: "눈을 감고 요리하기"

지금까지 AI 검색 기술 (멀티모달 에이전트) 을 평가하던 기준들은 큰 문제가 있었습니다.

  • 문제 상황: 요리사 (AI) 가 "이 사진 속 건물이 원래 뭐였지?"라고 물어볼 때, 기존 시험지는 AI 에게 사진을 검색 엔진에 그냥 던져주기만 하라고 했습니다.
  • 결과: AI 는 사진 속 내용을 직접 분석할 필요 없이, 검색 엔진이 "이건 맥주 공장입니다"라고 알려주면 그걸 그대로 답했습니다. 마치 눈을 감고 요리사에게 "이게 소금인지 설탕인지 알려줘"라고 묻고, 옆에서 누군가 "소금이야"라고 속삭여 주는 꼴입니다.
  • 한계: AI 는 실제로 사진을 보고 "아, 저기 맥주 통이 있네!"라고 스스로 추론하는 능력을 전혀 보여주지 못했습니다.

2. 새로운 해결책: VisBrowse-Bench (비즈브라우저 벤치)

연구팀 (안타 그룹, CASIA 등) 은 **"진짜 요리사라면 눈을 뜨고 재료를 보고 판단해야 한다"**고 생각했습니다. 그래서 VisBrowse-Bench라는 새로운 시험지를 만들었습니다.

이 시험지의 핵심은 **"이미지 없이는 답을 낼 수 없는 미스터리"**를 출제하는 것입니다.

  • 예시: "이 사진 속 사람이 들고 있는 지팡이를 보고, 이 사람이 등장하는 영화 포스터를 찾아보세요. 그리고 그 포스터에서 그 사람 아래에 있는 인물이 어떤 종족인지 찾아보세요."
  • 왜 어려운가?
    1. 먼저 사진 속 인물을 정확히 식별해야 합니다 (텍스트로는 안 됩니다).
    2. 그 인물이 나오는 영화 포스터를 찾아야 합니다.
    3. 찾은 포스터에서 누가 아래에 있는지 다시 사진으로 확인해야 합니다.
    4. 그 인물의 종족을 찾아야 합니다.

이 과정은 마치 수사관이 사건 현장 (사진) 을 보고, 관련 증거 (다른 사진, 문서) 를 찾아내고, 조각난 퍼즐을 맞춰真相을 밝히는 과정과 같습니다. 단순히 "구글에 검색"만 해서는 절대 풀 수 없습니다.

3. 실험 결과: AI 들의 실력은?

연구팀은 최신 AI 모델들 (Claude, GPT, Gemini 등) 에게 이 시험지를 풀어보게 했습니다. 결과는 생각보다 매우 어려웠습니다.

  • 최고의 AI (Claude-4.6-Opus): 정답률 47.6%
    • "아직 절반도 못 맞추네?"라고 생각하실 수 있습니다. 하지만 이 시험지는 정말 어렵게 설계되었기 때문입니다.
  • 전문 검색 AI (Deep Research): 정답률 41.1%
    • 검색에 특화된 AI 조차도 이미지 분석이 필요할 때 막힙니다.
  • 오픈소스 모델: 정답률 14.2%
    • 아직은 많이 부족합니다.

결론: AI 는 글을 읽고 검색하는 건 잘하지만, 사진을 보고 그 의미를 파악해서 새로운 정보를 찾아내는 능력은 아직 인간에 비해 훨씬 떨어집니다.

4. 연구팀의 제안: "스마트한 검색 에이전트"

이 문제를 해결하기 위해 연구팀은 AI 가 스스로 다음과 같은 행동을 하도록 **작업 흐름 (워크플로우)**을 설계했습니다.

  1. 사진 잘라보기 (Crop): 사진의 특정 부분을 확대해서 자세히 봅니다.
  2. 역검색 (Reverse Search): 사진 조각을 가지고 인터넷에서 비슷한 이미지를 찾아냅니다.
  3. 웹페이지 방문: 찾은 웹페이지에 들어가서 텍스트와 이미지를 함께 분석합니다.

이 과정을 통해 AI 는 **"글자만 읽는 검색"**에서 **"눈을 뜨고 보고, 생각하고, 찾아내는 검색"**으로 진화할 수 있습니다.

5. 요약: 왜 이 연구가 중요할까요?

이 논문은 **"AI 가 인터넷을 검색할 때, 눈 (이미지) 을 제대로 쓸 수 있어야 한다"**는 것을 증명했습니다.

  • 기존: AI 는 검색 엔진이 알려주는 텍스트만 믿었습니다. (눈을 감음)
  • 새로운 기준 (VisBrowse-Bench): AI 는 직접 사진을 보고, 그걸 바탕으로 새로운 정보를 찾아내야 합니다. (눈을 뜸)

이 시험지를 통해 우리는 AI 가 진짜 현실 세계 (사진, 영상, 복잡한 웹페이지) 에서 얼마나 똑똑하게 일할 수 있는지를 더 정확하게 측정할 수 있게 되었습니다. 앞으로 AI 가 우리 대신 여행 계획을 세우거나, 복잡한 물건을 고를 때, 이 '눈'을 제대로 뜨고 일할 수 있기를 기대해 봅니다!

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →