Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

本文针对现有基准在视觉搜索导向性和评估场景真实性方面的不足,构建了包含 2000 个实例的 Vision-DeepResearch 基准(VDR-Bench)以评估多模态大模型的复杂图文检索能力,并提出了一种有效的多轮裁剪搜索工作流以提升模型在真实场景下的表现。

Yu Zeng, Wenxuan Huang, Zhen Fang, Shuang Chen, Yufan Shen, Yishuo Cai, Xiaoman Wang, Zhenfei Yin, Lin Chen, Zehui Chen, Shiting Huang, Yiming Zhao, Xu Tang, Yao Hu, Philip Torr, Wanli Ouyang, Shaosheng Cao

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给现在的“超级 AI 侦探”们做了一次严格的“体检”和“特训”

为了让你更容易理解,我们可以把现在的多模态大模型(MLLM)想象成一位博学的侦探,而**Vision-DeepResearch(视觉深度研究)**就是这位侦探去破案的过程:他需要看图、上网查资料、把线索拼凑起来,最后给出答案。

这篇论文主要讲了三个故事:“以前的考题太假了”“我们造了个真考场”、以及**“教侦探学会了新招数”**。


1. 以前的考题太假了(现有基准的两大漏洞)

作者发现,以前用来测试这些 AI 侦探的“考卷”有两个大毛病,导致 AI 即使没真本事也能拿高分:

  • 毛病一:不用看图也能猜对(“文字作弊”)

    • 比喻:想象一下,考题问:“图片里那个穿黄色球衣的球员在哪个球场踢球?”选项有 A、B、C、D。
    • 问题:聪明的 AI 根本不用看图片!它只要读题目里的文字线索(比如“黄色球衣”、“德国”),结合它脑子里背过的知识(“多特蒙德队穿黄衣,主场是信号伊杜纳公园”),就能直接猜出答案 C。
    • 后果:这就像考试时,题目里直接泄露了答案,根本测不出 AI 有没有真的“看”懂图片。
  • 毛病二:搜索太容易了(“完美匹配”)

    • 比喻:以前的考试规则是,把整张原图发给搜索引擎,搜索引擎立马就跳出一模一样的原图,还附带标题说“这是某年某月某地的比赛”。
    • 问题:这就像侦探去查案,直接把嫌疑人全身照给警察,警察立马说“就是他,档案在这”。但在现实生活中,你往往只有一张模糊的局部照片(比如只看到一个 Logo 或一个角),需要去翻找、去比对。
    • 后果:以前的考试太理想化,没测出 AI 在模糊、嘈杂的真实世界里找线索的能力。

2. 我们造了个“真考场”(VDR-Bench)

为了解决这些问题,作者们造了一个全新的、更难的考场,叫 VDR-Bench

  • 怎么造出来的?

    • 他们先找了很多真实的图片,然后人工把图片里重要的局部剪下来(比如只剪下一个 Logo,或者一个建筑的角落)。
    • 用这些剪下来的小图去网上搜,找到对应的真实信息。
    • 再基于这些信息,设计出一连串需要多步推理的问题。
    • 比喻:这就像给侦探一张“局部特写”(比如只看到一只鞋的鞋带),让他去网上查“这是什么牌子的鞋?谁穿的?他在哪场比赛?”。侦探必须先认出鞋带,再查品牌,再查比赛,最后推理出地点。如果只靠猜或者只搜整张图,是绝对做不出来的。
  • 考什么?

    • 这个考场有 2000 道题,涵盖了体育、电影、建筑、自然等 10 个领域。
    • 它强制要求 AI 必须真的去“看”局部,必须真的去“搜”细节,不能靠死记硬背。

3. 教侦探学会了“新招数”(多轮裁剪搜索)

在测试中,作者发现很多强大的 AI 侦探有个坏习惯:“偷懒”(Lazy Search)。

  • 现象:有些 AI 脑子太好使,看到题目就觉得自己“大概知道答案”,懒得去搜图,结果反而错了。
  • 新招数:作者提出了一种叫 “多轮裁剪搜索”(Multi-round Cropped-Search) 的方法。
    • 比喻:这就好比教侦探不要拿着整张图去问“这是谁?”,而是教他:
      1. 下那个奇怪的标志;
      2. 拿着标志去搜,发现是“法拉利”;
      3. 下旁边那个人的脸,去搜发现是“某赛车手”;
      4. 把这两个线索拼起来,再问“他在哪场比赛?”
    • 效果:这种“切蛋糕”式的一步一步搜索,让 AI 在真实复杂的场景下,找线索的能力大大提升,准确率显著提高。

总结

这篇论文的核心思想就是:
以前的考试太简单、太假,AI 靠猜和背就能过关;现在我们造了一个必须“真看、真搜、真推理”的硬核考场,并且发现,教 AI 学会“把大问题拆成小问题、一步步去搜”的方法,才是让它们真正变聪明的关键。

这就好比:以前是考“背地图”,现在是考“在迷宫里找路”。只有掌握了在迷宫里一步步探索的方法,AI 才能真正成为实用的“超级侦探”。