SE-Search: Self-Evolving Search Agent via Memory and Dense Reward

本文提出了名为 SE-Search 的自进化搜索智能体,通过记忆净化、原子查询训练和密集奖励三大核心组件优化在线搜索行为,在单跳和多跳问答基准测试中显著超越了现有强基线模型。

Jian Li, Yizhang Jin, Dongqi Liu, Hang Ding, Jiafu Wu, Dongsheng Chen, Yunhang Shen, Yulei Qin, Ying Tai, Chengjie Wang, Xiaotong Yuan, Yabiao Wang

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 SE-Search 的智能搜索助手。为了让你更容易理解,我们可以把大语言模型(LLM)想象成一个博学但有点“书呆子气”的侦探,而 SE-Search 就是给这位侦探配备的一套超级进化训练系统

以前的搜索助手(现有的 RAG 技术)就像是一个只会机械执行命令的实习生:你问它什么,它就查什么,然后不管查到的资料里有多少废话,它都一股脑全读,最后试图拼凑出一个答案。这导致它经常因为读太多垃圾信息而“ hallucinate"(产生幻觉,胡编乱造),或者在复杂问题上转不过弯来。

SE-Search 通过三个核心“绝招”,让这位侦探学会了自我进化,变得既聪明又高效。

1. 核心绝招:三大进化机制

第一招:记忆净化 (Memory Purification) —— “做笔记,别记流水账”

  • 以前的做法:侦探去图书馆查资料,把借回来的 10 本书全部摊开在桌子上,不管有没有用,都试图同时阅读。结果脑子被杂音塞满了,找不到重点。
  • SE-Search 的做法:侦探学会了做笔记。每查一次资料,它不会把整本书搬回来,而是只把最关键的证据提炼出来,记在一个专门的“记忆本”(Memory)上。
  • 比喻:就像你复习考试,不会把整本教科书背下来,而是只把核心考点写在一张小卡片上。如果新查到的资料和卡片上的冲突,它会修正卡片;如果无关,它就忽略。这样,它的“大脑”里永远只存着最干净、最相关的信息。

第二招:原子查询 (Atomic Query) —— “把大任务拆成小任务”

  • 以前的做法:侦探面对一个复杂问题(比如“谁发明了电话,并且他的竞争对手是谁?”),可能会直接搜一大段话:“请告诉我电话的发明者以及他的竞争对手的所有详细信息”。结果搜索引擎返回的信息太泛,或者它搜了一次就以为够了,其实根本没搜全。
  • SE-Search 的做法:它学会了拆解问题。它会把大问题拆成几个简单的“原子问题”(比如先搜“电话是谁发明的”,再搜“他的竞争对手是谁”)。
  • 比喻:就像你要做一道复杂的菜,不会试图一次性把所有调料倒进锅里,而是先切菜,再炒肉,最后调味。这种分步走的策略,让侦探能搜到更多样、更精准的信息,而不是在同一个地方打转。

第三招:密集奖励 (Dense Rewards) —— “不仅看结果,更看过程”

  • 以前的做法:教练(训练系统)只会在最后看侦探的答案对不对。如果错了,教练只会说“错了,重来”,但没说哪里错了。是搜的方向错了?还是记笔记太乱?还是搜的次数不对?侦探只能瞎猜。
  • SE-Search 的做法:教练现在变成了细节控
    • 如果你搜的问题太啰嗦,扣分;
    • 如果你记笔记没记到点子上,扣分;
    • 如果你格式乱写,扣分;
    • 哪怕答案不完全对,只要沾边了,就给点鼓励分(F1 分数)。
  • 比喻:这就像教孩子学骑自行车。以前的教练只在孩子摔车时说“不行”;现在的教练会在孩子身体歪了时提醒“扶正”,在蹬得太快时说“慢点”,在方向偏了时说“往左”。这种实时、细致的反馈,让侦探学得非常快,而且不容易走弯路。

2. 训练过程:Think-Search-Memorize(思考 - 搜索 - 记忆)

SE-Search 的训练流程就像是一个循环升级的闭环

  1. 思考 (Think):侦探先分析问题,决定要不要搜,搜什么。
  2. 搜索 (Search):它发出指令,去“图书馆”(搜索引擎)找资料。
  3. 记忆 (Memorize):它立刻把找到的资料“过滤”一下,只把有用的记进“记忆本”,把垃圾扔掉。
  4. 回答 (Answer):基于干净的记忆本,给出最终答案。

在这个过程中,它通过密集奖励不断调整自己的行为:如果它发现搜了太多次还没答案,系统会惩罚它;如果它搜了一次就精准命中,系统会奖励它。久而久之,它就学会了在最少次数的搜索中,找到最准确的答案

3. 实际效果:更聪明、更省劲

实验结果显示,SE-Search 表现得非常棒:

  • 准确率更高:在回答复杂问题(需要多步推理)时,它的准确率比以前的最强模型(Search-R1)提高了很多。
  • 更省资源:它变得更“惜字如金”和“惜力如金”。以前可能需要搜 1.5 次才能答对的问题,现在搜 1.3 次就能答对,而且答得更准。
  • 适应性强:无论是简单的问题(单跳),还是像拼图一样复杂的问题(多跳),它都能灵活调整策略。

总结

简单来说,SE-Search 就是给 AI 侦探装上了**“记笔记的脑子”(记忆净化)、“拆任务的手”(原子查询)和“懂细节的教练”**(密集奖励)。

它不再是一个只会机械搜索的机器,而是一个懂得如何高效学习、如何筛选信息、如何自我修正的进化型智能体。这让它在面对现实世界中复杂、多变的问题时,表现得更加可靠和聪明。