Zhengbo Zhang, Jinbo Su, Zhaowen Zhou, Changtao Miao, Yuhan Hong, Qimeng Wu, Yumeng Liu, Feier Wu, Yihe Tian, Yuhao Liang, Zitong Shan, Wanke Xia, Yi-Fan Zhang, Bo Zhang, Zhe Li, Shiming Xiang, Ying Y

게시일 2026-03-18

📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

VisBrowse-Bench: "눈을 뜨고 검색하는 AI"를 위한 새로운 시험지

안녕하세요! 오늘 소개해 드릴 논문은 인공지능 (AI) 이 인터넷을 검색할 때, 단순히 '글자'만 읽는 게 아니라 '이미지'도 제대로 보고 이해할 수 있는지 테스트하는 새로운 기준을 만들었다는 이야기입니다.

이 내용을 마치 새로운 요리 대회를 준비하는 상황으로 비유해서 쉽게 설명해 드릴게요.

1. 기존 문제: "눈을 감고 요리하기"

지금까지 AI 검색 기술 (멀티모달 에이전트) 을 평가하던 기준들은 큰 문제가 있었습니다.

문제 상황: 요리사 (AI) 가 "이 사진 속 건물이 원래 뭐였지?"라고 물어볼 때, 기존 시험지는 AI 에게 사진을 검색 엔진에 그냥 던져주기만 하라고 했습니다.
결과: AI 는 사진 속 내용을 직접 분석할 필요 없이, 검색 엔진이 "이건 맥주 공장입니다"라고 알려주면 그걸 그대로 답했습니다. 마치 눈을 감고 요리사에게 "이게 소금인지 설탕인지 알려줘"라고 묻고, 옆에서 누군가 "소금이야"라고 속삭여 주는 꼴입니다.
한계: AI 는 실제로 사진을 보고 "아, 저기 맥주 통이 있네!"라고 스스로 추론하는 능력을 전혀 보여주지 못했습니다.

2. 새로운 해결책: VisBrowse-Bench (비즈브라우저 벤치)

연구팀 (안타 그룹, CASIA 등) 은 **"진짜 요리사라면 눈을 뜨고 재료를 보고 판단해야 한다"**고 생각했습니다. 그래서 VisBrowse-Bench라는 새로운 시험지를 만들었습니다.

이 시험지의 핵심은 **"이미지 없이는 답을 낼 수 없는 미스터리"**를 출제하는 것입니다.

예시: "이 사진 속 사람이 들고 있는 지팡이를 보고, 이 사람이 등장하는 영화 포스터를 찾아보세요. 그리고 그 포스터에서 그 사람 아래에 있는 인물이 어떤 종족인지 찾아보세요."
왜 어려운가?
1. 먼저 사진 속 인물을 정확히 식별해야 합니다 (텍스트로는 안 됩니다).
2. 그 인물이 나오는 영화 포스터를 찾아야 합니다.
3. 찾은 포스터에서 누가 아래에 있는지 다시 사진으로 확인해야 합니다.
4. 그 인물의 종족을 찾아야 합니다.

이 과정은 마치 수사관이 사건 현장 (사진) 을 보고, 관련 증거 (다른 사진, 문서) 를 찾아내고, 조각난 퍼즐을 맞춰真相을 밝히는 과정과 같습니다. 단순히 "구글에 검색"만 해서는 절대 풀 수 없습니다.

3. 실험 결과: AI 들의 실력은?

연구팀은 최신 AI 모델들 (Claude, GPT, Gemini 등) 에게 이 시험지를 풀어보게 했습니다. 결과는 생각보다 매우 어려웠습니다.

최고의 AI (Claude-4.6-Opus): 정답률 47.6%
- "아직 절반도 못 맞추네?"라고 생각하실 수 있습니다. 하지만 이 시험지는 정말 어렵게 설계되었기 때문입니다.
전문 검색 AI (Deep Research): 정답률 41.1%
- 검색에 특화된 AI 조차도 이미지 분석이 필요할 때 막힙니다.
오픈소스 모델: 정답률 14.2%
- 아직은 많이 부족합니다.

결론: AI 는 글을 읽고 검색하는 건 잘하지만, 사진을 보고 그 의미를 파악해서 새로운 정보를 찾아내는 능력은 아직 인간에 비해 훨씬 떨어집니다.

4. 연구팀의 제안: "스마트한 검색 에이전트"

이 문제를 해결하기 위해 연구팀은 AI 가 스스로 다음과 같은 행동을 하도록 **작업 흐름 (워크플로우)**을 설계했습니다.

사진 잘라보기 (Crop): 사진의 특정 부분을 확대해서 자세히 봅니다.
역검색 (Reverse Search): 사진 조각을 가지고 인터넷에서 비슷한 이미지를 찾아냅니다.
웹페이지 방문: 찾은 웹페이지에 들어가서 텍스트와 이미지를 함께 분석합니다.

이 과정을 통해 AI 는 **"글자만 읽는 검색"**에서 **"눈을 뜨고 보고, 생각하고, 찾아내는 검색"**으로 진화할 수 있습니다.

5. 요약: 왜 이 연구가 중요할까요?

이 논문은 **"AI 가 인터넷을 검색할 때, 눈 (이미지) 을 제대로 쓸 수 있어야 한다"**는 것을 증명했습니다.

기존: AI 는 검색 엔진이 알려주는 텍스트만 믿었습니다. (눈을 감음)
새로운 기준 (VisBrowse-Bench): AI 는 직접 사진을 보고, 그걸 바탕으로 새로운 정보를 찾아내야 합니다. (눈을 뜸)

이 시험지를 통해 우리는 AI 가 진짜 현실 세계 (사진, 영상, 복잡한 웹페이지) 에서 얼마나 똑똑하게 일할 수 있는지를 더 정확하게 측정할 수 있게 되었습니다. 앞으로 AI 가 우리 대신 여행 계획을 세우거나, 복잡한 물건을 고를 때, 이 '눈'을 제대로 뜨고 일할 수 있기를 기대해 봅니다!

VisBrowse-Bench: Benchmarking Visual-Native Search for Multimodal Browsing Agents

VisBrowse-Bench: "눈을 뜨고 검색하는 AI"를 위한 새로운 시험지

1. 기존 문제: "눈을 감고 요리하기"

2. 새로운 해결책: VisBrowse-Bench (비즈브라우저 벤치)

3. 실험 결과: AI 들의 실력은?

4. 연구팀의 제안: "스마트한 검색 에이전트"

5. 요약: 왜 이 연구가 중요할까요?

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

가. VisBrowse-Bench (새로운 벤치마크)

나. 에이전트 워크플로우 (Agentic Workflow)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

VisBrowse-Bench: Benchmarking Visual-Native Search for Multimodal Browsing Agents

VisBrowse-Bench: "눈을 뜨고 검색하는 AI"를 위한 새로운 시험지

1. 기존 문제: "눈을 감고 요리하기"

2. 새로운 해결책: VisBrowse-Bench (비즈브라우저 벤치)

3. 실험 결과: AI 들의 실력은?

4. 연구팀의 제안: "스마트한 검색 에이전트"

5. 요약: 왜 이 연구가 중요할까요?

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

가. VisBrowse-Bench (새로운 벤치마크)

나. 에이전트 워크플로우 (Agentic Workflow)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Exploration and Exploitation Errors Are Measurable for Language Model Agents

SciFi: A Safe, Lightweight, User-Friendly, and Fully Autonomous Agentic AI Workflow for Scientific Applications

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Optimizing Earth Observation Satellite Schedules under Unknown Operational Constraints: An Active Constraint Acquisition Approach

WebXSkill: Skill Learning for Autonomous Web Agents