VSearcher: Long-Horizon Multimodal Search Agent via Reinforcement Learning

本文提出了 VSearcher,一种通过强化学习将静态多模态模型转化为具备长程多轮工具调用能力的搜索智能体,并构建了高质量合成数据与专用基准 MM-SearchExam,使其在多模态网络搜索任务中表现优于现有模型及多个专有模型。

Ruiyang Zhang, Qianguo Sun, Chao Song, Yiyan Qi, Zhedong Zheng

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 VSearcher 的“超级智能搜索助手”。为了让你更容易理解,我们可以把它想象成一个正在接受特训的“全能侦探”

以前的 AI 就像是一个博学的图书管理员,肚子里装满了书(静态知识),但它不能出门,也不能看最新的报纸。如果问它“昨天发生了什么”,它就不知道了。而且,它通常只擅长处理文字,看不懂复杂的图片。

VSearcher 的目标是把这个“图书管理员”训练成一个能跑能跳、能看能查的“全能侦探”

以下是它如何变强的三个关键步骤,用生活中的比喻来解释:

1. 制造“烧脑”的练习题(数据合成)

比喻:像给侦探出“寻宝游戏”题

普通的练习题太简单了,比如“苹果是什么颜色?”,侦探看一眼书就知道,不需要动脑筋。VSearcher 的团队发明了一种叫**“迭代注入法”**的自动出题机器:

  • 第一步(找冷门线索): 机器先从维基百科里挑一些非常冷门、大家都不知道的“宝藏”(比如某个不知名的小镇或稀有昆虫)。
  • 第二步(层层加码): 它把问题变得越来越复杂。比如,先问“这个小镇在哪?”,然后把它改成“这个小镇的镇长,他小时候养的那只猫,叫什么名字?”
  • 第三步(加入图片陷阱): 最后,它把答案里最关键的线索藏进一张图片里,并问:“图片里这个奇怪的东西,是在哪一年被发现的?”

这样生成的题目,光靠死记硬背是绝对答不上的,侦探必须学会去网上搜索、看图片、点链接,才能找到答案。

2. 请“特级教官”带练(拒绝采样微调)

比喻:像请奥运冠军当私教

有了难题,但侦探(基础模型)还不会解题,怎么办?
团队请来了一个**“特级教官”**(这里指强大的商业模型 Gemini-3-Pro-Thinking)。

  • 教官示范: 教官面对这些烧脑题目,演示了完美的解题过程:先思考,再搜图,再搜文字,再点进网页看详情,最后得出结论。
  • 去粗取精: 如果教官做错了,或者没搜到答案,这个示范就被扔掉(拒绝采样)。只保留那些最终答对的完美解题过程。
  • 模仿学习: 让侦探反复看这些完美的“解题录像”,学习教官是怎么思考、怎么使用工具的。这就叫“监督微调”。

3. 在真实世界里“实战演练”(强化学习)

比喻:像把侦探扔进真实的迷宫

光看录像还不够,侦探需要亲自下场。
团队把侦探扔进了真实的互联网世界,让它自己去解题。

  • 试错与奖励: 侦探自己去搜、去点链接。如果它最终答对了,就给它**“糖果”**(奖励);如果答错了,就没有奖励。
  • 自我进化: 为了吃到更多糖果,侦探会不断调整自己的策略:比如“哦,原来搜图后直接点进那个链接比搜文字更有效!”或者“原来这个图片太模糊,我需要换个关键词搜”。
  • 结果: 经过成千上万次的实战,侦探不仅学会了怎么搜,还学会了什么时候该搜图、什么时候该搜文字、什么时候该停止搜索直接回答。它变得非常灵活和聪明。

4. 终极考试(MM-SearchExam)

为了证明侦探真的变强了,团队自己设计了一场**“地狱级”考试**(MM-SearchExam)。

  • 这场考试里的题目非常刁钻,连那些昂贵的商业模型(比如 GPT-5 等)都经常考不及格。
  • 结果令人惊讶:VSearcher 这个“学生”不仅考过了,分数还比很多“特级教官”和“商业模型”都要高!

总结

简单来说,VSearcher 就是:

  1. 自动造出一堆连人类都觉得难的“图文寻宝题”。
  2. 请大神演示怎么解题,只学正确的。
  3. 让 AI 在真实互联网上反复试错,直到它学会像侦探一样思考。

最终,它变成了一个既能看懂图片,又能像人一样在复杂的互联网上“冲浪”、搜索、推理,并解决超长链条复杂问题的超级助手。这标志着 AI 从“只会读书的学霸”进化成了“能解决现实问题的实干家”。