VisBrowse-Bench: Benchmarking Visual-Native Search for Multimodal Browsing Agents

该论文针对现有基准在视觉推理评估和网页原生视觉信息利用方面的不足,提出了包含 169 个实例的 VisBrowse-Bench 基准及相应的智能体工作流,通过严格的跨模态证据验证评估发现,当前最先进的多模态大模型(如 Claude-4.6-Opus 和 o3-deep-research)在视觉原生搜索任务中的准确率仍低于 50%。

Zhengbo Zhang, Jinbo Su, Zhaowen Zhou, Changtao Miao, Yuhan Hong, Qimeng Wu, Yumeng Liu, Feier Wu, Yihe Tian, Yuhao Liang, Zitong Shan, Wanke Xia, Yi-Fan Zhang, Bo Zhang, Zhe Li, Shiming Xiang, Ying Y
发布于 2026-03-18
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 VisBrowse-Bench 的新“考试”,专门用来测试现在的 AI 智能体(Agent)在上网搜索时,到底能不能真正“看懂”图片,而不仅仅是读文字。

我们可以把这篇论文的核心内容想象成一场**“超级侦探挑战赛”**。

1. 以前的“侦探考试”有什么毛病?

想象一下,以前的 AI 侦探考试是这样的:

  • 题目:给你一张照片,问“这是哪座建筑?”
  • AI 的做法:它不需要真的去“看”照片里的细节,只需要把照片扔给一个“以图搜图”的工具,工具马上告诉它:“这是札幌啤酒博物馆”。AI 只要把答案抄下来就行。
  • 问题:这就像让侦探去破案,但他根本不需要观察现场,只要打个电话问路人就能得到答案。这测不出侦探真正的观察力推理能力

而且,以前的考试一旦查到了名字,剩下的问题就全是文字搜索了。比如查到是“爱因斯坦”,接下来的问题就变成纯文字问答,完全不需要再看图了。这就像侦探到了案发现场,只看文字报告,却对现场留下的指纹、脚印视而不见。

2. 这次的新考试(VisBrowse-Bench)有多难?

作者设计了一个全新的“地狱级”侦探考场,里面有 169 道 精心设计的题目。它的核心规则是:“答案藏在图片里,文字只是线索。”

举个生动的例子:

  • 题目:图片里有个拿着魔法棒指着右上角的人。这个人在某系列电影的第一部海报里也出现过。请问,海报里站在这个人下面的人,是什么种族?
  • 正确答案:半巨人(海格)。
  • AI 必须怎么做?
    1. 看图:先认出拿魔法棒的是“赫敏”。
    2. 搜索:去搜“哈利波特第一部海报”。
    3. 再找图:在搜到的海报里,再次看图,找到赫敏下面站着的是谁(海格)。
    4. 推理:最后确认海格的种族。

关键点:如果 AI 只读文字描述,它永远找不到“赫敏下面是谁”这个信息,因为文字里不会写“赫敏下面站着海格”。它必须主动去网页里找图、看图、再找图。这就是所谓的“视觉原生搜索”(Visual-Native Search)。

3. 给 AI 配了什么“装备”?

为了让 AI 能完成这种高难度任务,作者给它们配了一套**“五件套”工具**:

  1. 文字搜索:像百度/谷歌一样搜文字。
  2. 图片搜索:搜相关的图片。
  3. 反向搜图:拿一张图去搜它来自哪里。
  4. 图片裁剪:把图片里模糊的地方放大,像用放大镜看细节。
  5. 网页浏览:打开网页,像人一样阅读里面的图文信息。

这套流程要求 AI 像一个真正的侦探:先观察线索(看图),再查资料(搜图/搜文),再对比证据(交叉验证),最后破案。

4. 考试结果:AI 们表现如何?

结果非常残酷,甚至有点让人“泄气”:

  • 最强选手:即使是目前最厉害的模型 Claude-4.6-Opus,满分 100 分,它只考了 47.6 分
  • 其他选手:大多数模型只能考 30 分 左右。
  • Deep Research 模型:号称能深度研究的 o3-deep-research,也只考了 41.1 分

为什么这么难?
因为现在的 AI 太依赖“背答案”和“读文字”了。一旦遇到需要**“看图找茬”“在图片里找关系”**的任务,它们就容易犯迷糊。它们往往还没开始看图,就急着去搜文字,结果发现文字里没答案,就卡住了。

5. 这篇论文的意义是什么?

这就好比在 AI 发展的道路上,作者立了一块**“警示牌”**:

“嘿,现在的 AI 虽然能写诗、能聊天,但在真正复杂的现实世界搜索中,它们的‘眼睛’还不够亮,‘脑子’还不会结合图片去推理。如果我们不解决‘视觉推理’这个问题,AI 就永远无法成为真正的全能助手。”

总结一下:
这篇论文就是给现在的 AI 智能体出了一套**“看图破案”的难题,告诉我们要想造出真正的“超级侦探”,光会读文字是不够的,必须让它们学会主动去观察图片、理解图片,并把图片和文字结合起来思考**。目前的 AI 离这个目标还有很长的路要走。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →