VSearcher: Long-Horizon Multimodal Search Agent via Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 VSearcher 的“超级智能搜索助手”。为了让你更容易理解，我们可以把它想象成一个正在接受特训的“全能侦探”。

以前的 AI 就像是一个博学的图书管理员，肚子里装满了书（静态知识），但它不能出门，也不能看最新的报纸。如果问它“昨天发生了什么”，它就不知道了。而且，它通常只擅长处理文字，看不懂复杂的图片。

VSearcher 的目标是把这个“图书管理员”训练成一个能跑能跳、能看能查的“全能侦探”。

以下是它如何变强的三个关键步骤，用生活中的比喻来解释：

1. 制造“烧脑”的练习题（数据合成）

比喻：像给侦探出“寻宝游戏”题

普通的练习题太简单了，比如“苹果是什么颜色？”，侦探看一眼书就知道，不需要动脑筋。VSearcher 的团队发明了一种叫**“迭代注入法”**的自动出题机器：

第一步（找冷门线索）： 机器先从维基百科里挑一些非常冷门、大家都不知道的“宝藏”（比如某个不知名的小镇或稀有昆虫）。
第二步（层层加码）： 它把问题变得越来越复杂。比如，先问“这个小镇在哪？”，然后把它改成“这个小镇的镇长，他小时候养的那只猫，叫什么名字？”
第三步（加入图片陷阱）： 最后，它把答案里最关键的线索藏进一张图片里，并问：“图片里这个奇怪的东西，是在哪一年被发现的？”

这样生成的题目，光靠死记硬背是绝对答不上的，侦探必须学会去网上搜索、看图片、点链接，才能找到答案。

2. 请“特级教官”带练（拒绝采样微调）

比喻：像请奥运冠军当私教

有了难题，但侦探（基础模型）还不会解题，怎么办？
团队请来了一个**“特级教官”**（这里指强大的商业模型 Gemini-3-Pro-Thinking）。

教官示范： 教官面对这些烧脑题目，演示了完美的解题过程：先思考，再搜图，再搜文字，再点进网页看详情，最后得出结论。
去粗取精： 如果教官做错了，或者没搜到答案，这个示范就被扔掉（拒绝采样）。只保留那些最终答对的完美解题过程。
模仿学习： 让侦探反复看这些完美的“解题录像”，学习教官是怎么思考、怎么使用工具的。这就叫“监督微调”。

3. 在真实世界里“实战演练”（强化学习）

比喻：像把侦探扔进真实的迷宫

光看录像还不够，侦探需要亲自下场。
团队把侦探扔进了真实的互联网世界，让它自己去解题。

试错与奖励： 侦探自己去搜、去点链接。如果它最终答对了，就给它**“糖果”**（奖励）；如果答错了，就没有奖励。
自我进化： 为了吃到更多糖果，侦探会不断调整自己的策略：比如“哦，原来搜图后直接点进那个链接比搜文字更有效！”或者“原来这个图片太模糊，我需要换个关键词搜”。
结果： 经过成千上万次的实战，侦探不仅学会了怎么搜，还学会了什么时候该搜图、什么时候该搜文字、什么时候该停止搜索直接回答。它变得非常灵活和聪明。

4. 终极考试（MM-SearchExam）

为了证明侦探真的变强了，团队自己设计了一场**“地狱级”考试**（MM-SearchExam）。

这场考试里的题目非常刁钻，连那些昂贵的商业模型（比如 GPT-5 等）都经常考不及格。
结果令人惊讶：VSearcher 这个“学生”不仅考过了，分数还比很多“特级教官”和“商业模型”都要高！

总结

简单来说，VSearcher 就是：

自动造出一堆连人类都觉得难的“图文寻宝题”。
请大神演示怎么解题，只学正确的。
让 AI 在真实互联网上反复试错，直到它学会像侦探一样思考。

最终，它变成了一个既能看懂图片，又能像人一样在复杂的互联网上“冲浪”、搜索、推理，并解决超长链条复杂问题的超级助手。这标志着 AI 从“只会读书的学霸”进化成了“能解决现实问题的实干家”。

VSearcher: Long-Horizon Multimodal Search Agent via Reinforcement Learning

1. 制造“烧脑”的练习题（数据合成）

2. 请“特级教官”带练（拒绝采样微调）

3. 在真实世界里“实战演练”（强化学习）

4. 终极考试（MM-SearchExam）

总结

VSearcher 技术总结：基于强化学习的长程多模态搜索智能体

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 基于迭代注入的数据合成 (Iterative Injection-based Data Synthesis)

2.2 拒绝采样微调 (Rejection Sampling Fine-tuning, RFT)

2.3 强化学习 (Reinforcement Learning, RL)

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

VSearcher: Long-Horizon Multimodal Search Agent via Reinforcement Learning

1. 制造“烧脑”的练习题（数据合成）

2. 请“特级教官”带练（拒绝采样微调）

3. 在真实世界里“实战演练”（强化学习）

4. 终极考试（MM-SearchExam）

总结

VSearcher 技术总结：基于强化学习的长程多模态搜索智能体

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 基于迭代注入的数据合成 (Iterative Injection-based Data Synthesis)

2.2 拒绝采样微调 (Rejection Sampling Fine-tuning, RFT)

2.3 强化学习 (Reinforcement Learning, RL)

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

类似论文

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers