Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

本文提出了 Vision-DeepResearch,一种通过冷启动监督与强化学习训练多轮、多实体及多尺度视觉文本搜索能力的多模态大模型新范式,使其在复杂噪声环境下能进行深度推理与广泛证据聚合,从而显著超越现有模型及基于 GPT-5 等闭源强基座的工作流。

Wenxuan Huang, Yu Zeng, Qiuchen Wang, Zhen Fang, Shaosheng Cao, Zheng Chu, Qingyu Yin, Shuang Chen, Zhenfei Yin, Lin Chen, Zehui Chen, Xu Tang, Yao Hu, Philip Torr, Feng Zhao, Wanli Ouyang

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Vision-DeepResearch(视觉深度研究)的新系统。简单来说,它让 AI 变得更像一个**“拥有侦探直觉和超级搜索技能的调查员”**,而不仅仅是一个只会看图说话的“百科全书”。

为了让你更容易理解,我们可以把现有的 AI 和这个新系统比作两种不同的**“找东西”**的方式:

1. 以前的 AI:像“拿着整张地图乱撞的游客”

想象一下,你给以前的 AI 一张很乱的照片(比如一张有很多人的体育场照片),问它:“那个穿红色球衣的人是谁?”

  • 以前的做法(全图搜索): AI 会直接把整张照片扔给搜索引擎。
    • 比喻: 就像你走进一个巨大的图书馆,把整栋大楼的照片扔给图书管理员,问:“这本书在哪?”管理员可能会因为照片里人太多、背景太乱,完全找不到重点,或者给你一堆无关的书(这就是论文里说的“命中率低”的问题)。
  • 以前的做法(浅尝辄止): 如果第一次没找到,AI 可能就直接放弃了,或者只问一两个简单的问题就给出一个猜测的答案。
    • 比喻: 就像游客问路,问了一次没得到准确答案,就随便指个方向走了,根本不会去问路人、看路牌或者换条路再试。

结果: 面对复杂、嘈杂的现实世界,以前的 AI 经常答非所问,或者根本找不到答案。


2. 新的 Vision-DeepResearch:像“经验丰富的私家侦探”

这个新系统改变了策略,它学会了像人类侦探一样思考:

A. 学会“切蛋糕”式搜索(多尺度、多实体)

  • 做法: 当 AI 看到那张体育场照片时,它不会扔整张图。它会先把照片放大,把那个穿红衣服的人单独裁剪出来,再扔给搜索引擎。如果还没找到,它可能会再裁剪一下旁边的广告牌,或者换个角度再搜。
  • 比喻: 就像侦探在案发现场,不会把整个房间的照片给法医,而是会拿着放大镜,先对准那个关键的指纹,再对准那把刀,一步步缩小范围。这就是论文里说的“多尺度视觉搜索”。

B. 学会“死磕”到底(长链条推理)

  • 做法: 如果第一次搜索没结果,AI 不会放弃。它会想:“也许名字拼错了?也许需要查一下这个人的球队?也许需要查一下比赛日期?”它会连续进行几十次搜索,像剥洋葱一样,一层一层地深入。
  • 比喻: 就像侦探在破案时,如果线索断了,他会去查电话记录、去问邻居、去查监控,甚至去查十年前的旧报纸。它愿意花几个小时(几十步推理)去拼凑真相,而不是只问一句就结束。

C. 图文结合,互相验证

  • 做法: 它不仅能看图,还能看图搜出来的文字,再结合文字去反推图里的细节。
  • 比喻: 侦探不仅看现场照片,还会去查相关的新闻报道,把文字信息和照片里的细节对得上号,确保证据链完整。

3. 它是如何练成的?(数据流水线)

为了让 AI 学会这种“侦探技能”,作者们没有让它瞎猜,而是给它造了一个**“超级特训营”**:

  1. 制造难题(合成数据): 他们故意制造了很多很难的“看图问答题”。比如,把照片里的关键信息藏起来,或者把问题绕得很弯(比如不问“猫叫什么”,而问“猫主人的女儿的老师是谁”)。
  2. 模拟演练(轨迹生成): 他们让强大的 AI 先模拟一遍“侦探破案”的全过程:怎么裁剪图片、怎么搜索、怎么失败、怎么换思路、最后怎么找到答案。
  3. 实战训练(强化学习): 让新 AI 在这些模拟的“破案现场”里反复练习。做对了给奖励,做错了(比如死循环、搜不到)就让它重来。经过成千上万次的“试错”,它终于学会了如何高效地找到真相。

4. 最终效果:小身材,大能量

  • 结果: 这个新系统(Vision-DeepResearch)在六个不同的测试题上都拿到了第一名,甚至超过了那些由昂贵闭源大模型(如 GPT-5、Gemini 等)组成的复杂工作流。
  • 亮点: 最厉害的是,它用较小的模型(比如 80 亿参数,相当于一个普通手机能跑的大小)就达到了超级大模型的效果。这意味着未来我们手机里的 AI 助手,也能像顶级侦探一样,帮你解决复杂的现实问题。

总结

这篇论文的核心思想就是:别指望 AI 一眼看穿所有秘密。
以前的 AI 是“一眼定生死”,现在的 Vision-DeepResearch 是**“抽丝剥茧,死磕到底”。它教会了 AI 在面对混乱的现实世界时,如何像人类一样,通过多次尝试、多角度观察、深度思考**,最终找到那个正确的答案。