Learning to Retrieve from Agent Trajectories

该论文提出了“从智能体轨迹中学习检索”(LRAT)的新范式,通过利用智能体多步交互中的行为信号(如浏览动作和推理痕迹)来构建监督信号,从而训练出在智能体搜索场景下能显著提升证据召回率、任务成功率及执行效率的检索模型。

Yuqi Zhou, Sunhao Dai, Changle Qu, Liang Pang, Jun Xu, Ji-Rong Wen

发布于 2026-04-08
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**“教 AI 如何更好地帮 AI 找资料”**的故事。

为了让你更容易理解,我们可以把整个场景想象成**“一位超级聪明的侦探(AI 智能体)在寻找破案线索”**。

1. 以前的做法:给侦探配了个“人类向导”

过去,我们训练搜索引擎(也就是那个帮侦探找线索的“向导”)时,主要看人类是怎么搜东西的。

  • 人类的行为:人类在搜索时,如果看到标题不喜欢,可能直接划走;如果看了很久,说明感兴趣。
  • 问题:现在的“侦探”(AI 智能体)不是人。它不像人那样漫无目的地浏览,它是为了解决一个复杂的任务(比如写一份深度报告)而主动去搜索。
  • 错位:用教“人类”的方法去教“侦探”,就像是用教小孩子玩捉迷藏的规则,去训练一个特种兵。结果就是,侦探觉得向导找来的东西要么太浅显,要么不相关,导致任务失败。

2. 这篇论文的核心发现:观察侦探的“行动轨迹”

作者们发现,要训练好这个“向导”,不能看人类怎么搜,而要看侦探自己是怎么搜的。他们分析了侦探在执行任务时的完整“行动轨迹”(Trajectory),就像侦探的**“办案日记”**。

他们从日记里发现了三个**“破案线索”**(也就是判断资料好坏的标准):

  • 线索一:只有“打开”过的文件才是好文件(浏览即肯定)

    • 现象:侦探如果只搜索但不打开看,说明它觉得那些资料没用。只有当它决定**“打开并阅读全文”**(Browse)时,才说明这份资料真的引起了它的注意。
    • 比喻:就像你在图书馆,如果一本书你连封面都没碰,直接放回书架,那它对你来说就是“坏书”;如果你把它拿下来读了几页,那它就是“好书”。
  • 线索二:没打开的文件,就是“坏书”(未浏览即否定)

    • 现象:在人类搜索里,没被点击可能是因为“位置太靠后没人看见”。但在侦探眼里,它会把所有结果都扫一眼,没打开的,就是它明确拒绝的
    • 比喻:侦探就像个挑剔的美食家,菜单上所有它没点的菜,都是它觉得不好吃的,而不是因为服务员没端上来。
  • 线索三:读完后思考得越久,资料越重要(思考长度即价值)

    • 现象:侦探打开文件后,如果马上关掉,说明这资料没啥用;如果它读完后,思考了很久,写了长长的笔记,说明这份资料对它解决难题帮助巨大。
    • 比喻:这就像你读一篇文章,如果读完只花 1 秒钟就忘,说明它没营养;如果你读完沉思了半小时,还做了笔记,说明这篇文章对你价值连城

3. 他们提出的新方法:LRAT(向侦探学习)

基于以上发现,作者提出了一个叫 LRAT 的新方法。

  • 做法:不再看人类的点击记录,而是把侦探的“办案日记”(行动轨迹)喂给搜索引擎。
  • 机制
    1. 把侦探打开过的文件标记为“好资料”。
    2. 把侦探没打开的文件标记为“坏资料”。
    3. 根据侦探思考了多久,给“好资料”打分。思考越久,分数越高,告诉搜索引擎:“这个资料特别重要,下次要优先找它!”

4. 效果如何?

实验结果显示,用了 LRAT 训练后的搜索引擎,就像给侦探配了一个**“懂行”的助手**:

  • 找得更准:能更快找到侦探真正需要的核心证据。
  • 干得更快:侦探不需要反复搜索和试错,完成任务的步数变少了。
  • 更聪明:无论是小模型还是大模型(从 40 亿参数到 3500 亿参数),只要用了这个方法,任务成功率都大幅提升。

总结

这就好比以前我们教 AI 找东西,是**“看着人类怎么找,然后模仿人类”;现在这篇论文告诉我们,“看着 AI 自己怎么找,然后模仿 AI"**。

在 AI 自己当主角(Agent)的时代,只有**“以 AI 为师”**,让搜索引擎学会 AI 的思维方式,才能真正发挥 AI 的潜力。这篇论文就是为这个新时代建立了一套新的“教学大纲”。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →