Improving Search Agent with One Line of Code

该论文针对工具增强代理强化学习(TARL)中因重要性采样分布漂移导致的训练崩溃问题,提出了一种仅需一行代码修改即可实施的 SAPO 算法,通过条件性 KL 约束稳定训练,在多个基准测试中显著提升了搜索智能体的性能。

Jian Li, Dongsheng Chen, Zhenhua Xu, Yizhang Jin, Jiafu Wu, Chengjie Wang, Xiaotong Yuan, Yabiao Wang

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲了一个关于如何让 AI 搜索助手变得更聪明、更稳定的故事。

想象一下,你正在训练一个超级聪明的侦探机器人(这就是文中的“搜索智能体”),它的任务是去互联网上搜索信息,然后回答你复杂的问题。

1. 遇到了什么大麻烦?(ISDD:训练崩溃)

以前,研究人员用一种叫 GRPO 的方法训练这个侦探。这就像给侦探发奖金:如果它找对了答案,就奖励;找错了,就惩罚。

但是,这个方法有一个致命的缺陷,论文称之为 "ISDD"(重要性采样分布漂移)

通俗比喻:
想象侦探在训练初期,非常努力地尝试各种搜索策略。突然有一天,它发现了一条“捷径”,觉得这条新路线特别好,于是疯狂地只走这条新路线,完全抛弃了以前学过的所有经验。

这时候,训练系统(老师)想纠正它:“嘿,你以前走的那条老路其实也不错,别全忘了!”
但是,因为侦探现在的策略和以前差别太大了,系统计算出的“修正信号”变得微乎其微,甚至直接变成了

结果就是: 侦探彻底“学傻了”,不管怎么教,它都学不到新东西,甚至把以前会的也忘了。这就是论文里说的“模型崩溃”(Model Collapse)。就像一个人突然失忆,怎么教都教不会。

2. 他们想出了什么绝招?(SAPO:一行代码的魔法)

为了解决这个问题,作者提出了一个叫 SAPO 的新方法。

核心思想:
他们发现,侦探在“走错路”的时候,系统会疯狂惩罚;但在“走对路”但“步子迈太大”的时候,系统却不敢惩罚,怕把侦探吓跑。

SAPO 的做法非常巧妙:
它给侦探加了一个**“软性刹车”**。

  • 以前(硬刹车): 只要步子迈得太大,直接切断信号(就像把侦探的嘴堵上,不让它说话)。
  • 现在(SAPO 软刹车): 如果侦探在做正确的事情(比如找到了好答案),但是步子迈得太猛(概率变化太大),系统会轻轻地推它一下:“慢点,别跑太快,稍微稳一点。”

最神奇的地方:
作者说,这个改进只需要修改一行代码!就像给一辆法拉利换了一个更灵敏的油门踏板,不需要重新造车,就能让车跑得更稳、更快。

3. 效果怎么样?(跑得更快、更稳)

作者用这个新方法,在 7 个不同的“侦探考试”(问答测试)上进行了测试。

  • 成绩提升: 相比以前的最佳方法(Search-R1),新方法的准确率提高了 10.6%。这相当于一个平时考 70 分的学生,突然考到了 80 多分,而且是在很难的考试里。
  • 适用性强: 不管是大模型(像 140 亿参数的大家伙)还是小模型(15 亿参数的小个子),用了这个方法都变强了。
  • 稳定性: 训练过程中,侦探不再“发疯”或“失忆”,而是稳步进步。

总结

这篇论文就像是在说:

“我们给 AI 侦探的训练系统加了一个智能稳压器。以前它容易因为太兴奋而‘跑偏’导致崩溃,现在有了这个稳压器,它既能大胆探索新路线,又不会跑得太远而迷路。而且,这个改进超级简单,只需要改一行代码就能让所有 AI 搜索助手变得更强、更聪明!”

一句话概括: 用一行代码的“软刹车”,防止 AI 搜索助手在训练中“跑偏”崩溃,让它学得更稳、答得更准。