MM-DeepResearch: A Simple and Effective Multimodal Agentic Search Baseline

该论文提出了 MM-DeepResearch,一种通过引入基于超图的多模态问答数据生成方法(Hyper-Search)、基于工具专家分解与树搜索的轨迹优化策略(DR-TTS)以及支持离线强化学习的多工具搜索引擎,来有效解决多模态深度研究智能体在数据稀缺、轨迹缺乏及训练成本高昂方面挑战的基线模型。

Huanjin Yao, Qixiang Yin, Min Yang, Ziwang Zhao, Yibo Wang, Haotian Luo, Jingyi Zhang, Jiaxing Huang

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 MM-DeepResearch 的“超级智能助手”。你可以把它想象成一个拥有“火眼金睛”和“超级搜索技能”的侦探,专门用来解决那些光靠看书(训练数据)根本答不上来的复杂问题。

为了让你更容易理解,我们把整个研究过程比作培养一名“全能侦探”,而这篇论文就是他的训练手册

1. 为什么要培养这个侦探?(背景与挑战)

现在的 AI 就像是一个博学的学生,读过很多书,但有两个大问题:

  1. 知识有保质期:它不知道昨天发生的新闻,也不知道网上最新的图片信息。
  2. 不会主动找资料:遇到不会的题,它只会瞎猜,或者死记硬背,不知道去图书馆(搜索引擎)查资料。

以前的方法(RAG)就像是让老师把书翻到某一页读给学生听,学生再回答问题。但这不够灵活,学生不知道什么时候该翻哪一页,也不知道该查什么。

这篇论文的目标是训练一个能自己思考、自己决定查什么资料、自己把图片和文字信息拼凑起来的“深度研究侦探”。

2. 培养侦探的三大绝招(核心创新)

为了培养这个侦探,作者遇到了三个大麻烦,并想出了三个绝妙的解决办法:

第一招:制造“超级考题” —— Hyper-Search(超图搜索)

  • 麻烦:市面上没有足够多的“需要查很多资料才能答对”的练习题。
  • 比喻:就像你想教学生查资料,但手里只有一堆“苹果是什么颜色”这种不用查就能答的简单题。
  • 绝招:作者发明了一个叫 Hyper-Search 的“出题机器”。
    • 它把互联网上的图片和文字看作一个个节点(像地图上的点)。
    • 它用超线(像蜘蛛网一样)把这些点连起来。比如,一张“埃菲尔铁塔”的图片,可以连到“铁塔高度”的文字,再连到“铁塔设计师”的另一张图。
    • 效果:这个机器能自动生成那种必须查好几轮、看好几张图、读好几段文字才能答对的“超级难题”。这就像给侦探准备了无数种复杂的“寻宝图”,逼着他必须学会查资料。

第二招:分科特训 + 组队实战 —— DR-TTS(分解 - 重组工具树搜索)

  • 麻烦:让侦探直接去网上乱搜,他经常用错工具(比如该查文字时去查图),或者搜不到重点。
  • 比喻:就像让一个刚入行的侦探同时学“查档案”、“看监控”和“问线人”,他很容易手忙脚乱。
  • 绝招:作者用了 DR-TTS 策略,分两步走:
    1. 分科特训:先把任务拆开。专门训练一个“查文字专家”,专门训练一个“查图片专家”。每个专家只练好自己那一招,练得炉火纯青。
    2. 组队实战:把这些专家聚在一起,像玩树状游戏一样。面对一个问题,他们一起尝试不同的搜索路径(比如:先查图 -> 再查文字 -> 再查图)。
    • 效果:通过这种“分而治之,再合而用之”的方法,他们能自动找到最高效的搜索路线,并把这些路线记录下来,教给主侦探。

第三招:建立“离线模拟城” —— 离线搜索引擎

  • 麻烦:训练侦探需要查很多次网,如果用真实的搜索引擎(如 Google),每次查询都要花钱,而且慢,训练一次可能要花几千美元。
  • 比喻:就像想教学生开车,但每次练车都要去真实的公路上跑,既危险又烧油,根本练不起。
  • 绝招:作者建了一个巨大的“离线模拟城”
    • 他们提前把网上大量的图片和文字下载下来,存成一个巨大的数据库。
    • 训练时,侦探在这个“模拟城”里查资料,速度极快,而且完全免费
    • 效果:这让侦探可以无限制地“疯狂练车”,直到练成老司机,最后再上真实公路(真实互联网)去考试。

3. 最终成果:MM-DeepResearch 侦探

经过这套“超级考题 + 分科特训 + 模拟城”的训练,MM-DeepResearch 诞生了。

  • 它的能力

    • 看到一张图,它能主动思考:“这图里有个奇怪的建筑,我得先查它在哪,再查谁建的,最后查它的历史。”
    • 它能灵活切换工具:一会儿用“以图搜图”,一会儿用“文字搜索”,一会儿用“知识问答”。
    • 它能像人类一样,把查到的碎片信息拼凑起来,给出一个完美的答案。
  • 表现

    • 在各项考试(基准测试)中,它的表现超过了之前很多昂贵的、依赖真实搜索 API 的模型。
    • 它证明了:不需要花大价钱去网上乱搜,只要方法对(用离线模拟 + 好的训练数据),也能训练出顶级的搜索专家。

总结

这篇论文就像是在说:“别再用钱堆出 AI 了,我们要用聪明的方法(超图出题、分科训练、离线模拟)来培养 AI。这样,AI 就能像真正的侦探一样,在信息的海洋里游刃有余地找到真相。”

这不仅让 AI 变得更聪明,也让未来的 AI 研究变得更便宜、更可行。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →