Learning to Retrieve from Agent Trajectories

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**“教 AI 如何更好地帮 AI 找资料”**的故事。

为了让你更容易理解，我们可以把整个场景想象成**“一位超级聪明的侦探（AI 智能体）在寻找破案线索”**。

1. 以前的做法：给侦探配了个“人类向导”

过去，我们训练搜索引擎（也就是那个帮侦探找线索的“向导”）时，主要看人类是怎么搜东西的。

人类的行为：人类在搜索时，如果看到标题不喜欢，可能直接划走；如果看了很久，说明感兴趣。
问题：现在的“侦探”（AI 智能体）不是人。它不像人那样漫无目的地浏览，它是为了解决一个复杂的任务（比如写一份深度报告）而主动去搜索。
错位：用教“人类”的方法去教“侦探”，就像是用教小孩子玩捉迷藏的规则，去训练一个特种兵。结果就是，侦探觉得向导找来的东西要么太浅显，要么不相关，导致任务失败。

2. 这篇论文的核心发现：观察侦探的“行动轨迹”

作者们发现，要训练好这个“向导”，不能看人类怎么搜，而要看侦探自己是怎么搜的。他们分析了侦探在执行任务时的完整“行动轨迹”（Trajectory），就像侦探的**“办案日记”**。

他们从日记里发现了三个**“破案线索”**（也就是判断资料好坏的标准）：

线索一：只有“打开”过的文件才是好文件（浏览即肯定）
- 现象：侦探如果只搜索但不打开看，说明它觉得那些资料没用。只有当它决定**“打开并阅读全文”**（Browse）时，才说明这份资料真的引起了它的注意。
- 比喻：就像你在图书馆，如果一本书你连封面都没碰，直接放回书架，那它对你来说就是“坏书”；如果你把它拿下来读了几页，那它就是“好书”。
线索二：没打开的文件，就是“坏书”（未浏览即否定）
- 现象：在人类搜索里，没被点击可能是因为“位置太靠后没人看见”。但在侦探眼里，它会把所有结果都扫一眼，没打开的，就是它明确拒绝的。
- 比喻：侦探就像个挑剔的美食家，菜单上所有它没点的菜，都是它觉得不好吃的，而不是因为服务员没端上来。
线索三：读完后思考得越久，资料越重要（思考长度即价值）
- 现象：侦探打开文件后，如果马上关掉，说明这资料没啥用；如果它读完后，思考了很久，写了长长的笔记，说明这份资料对它解决难题帮助巨大。
- 比喻：这就像你读一篇文章，如果读完只花 1 秒钟就忘，说明它没营养；如果你读完沉思了半小时，还做了笔记，说明这篇文章对你价值连城。

3. 他们提出的新方法：LRAT（向侦探学习）

基于以上发现，作者提出了一个叫 LRAT 的新方法。

做法：不再看人类的点击记录，而是把侦探的“办案日记”（行动轨迹）喂给搜索引擎。
机制：
1. 把侦探打开过的文件标记为“好资料”。
2. 把侦探没打开的文件标记为“坏资料”。
3. 根据侦探思考了多久，给“好资料”打分。思考越久，分数越高，告诉搜索引擎：“这个资料特别重要，下次要优先找它！”

4. 效果如何？

实验结果显示，用了 LRAT 训练后的搜索引擎，就像给侦探配了一个**“懂行”的助手**：

找得更准：能更快找到侦探真正需要的核心证据。
干得更快：侦探不需要反复搜索和试错，完成任务的步数变少了。
更聪明：无论是小模型还是大模型（从 40 亿参数到 3500 亿参数），只要用了这个方法，任务成功率都大幅提升。

总结

这就好比以前我们教 AI 找东西，是**“看着人类怎么找，然后模仿人类”；现在这篇论文告诉我们，“看着 AI 自己怎么找，然后模仿 AI"**。

在 AI 自己当主角（Agent）的时代，只有**“以 AI 为师”**，让搜索引擎学会 AI 的思维方式，才能真正发挥 AI 的潜力。这篇论文就是为这个新时代建立了一套新的“教学大纲”。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

核心矛盾：人类中心检索与智能体搜索的错配

传统范式： 现有的信息检索（IR）系统主要基于“人类中心”范式设计。检索模型通常利用大规模的人类交互日志（如点击、停留时间）进行训练，假设用户通过点击和浏览来表达相关性。
新挑战： 随着大语言模型（LLM）驱动的智能体（Agents）的兴起，搜索的主要用户正从人类转变为智能体。智能体在解决复杂任务时，会将检索嵌入到多轮推理和行动循环中（Multi-turn reasoning and action loops）。
根本问题： 现有的检索模型是基于人类行为假设训练的，而智能体的查询模式（为了推进中间推理目标而非直接满足信息需求）和结果消费方式（浏览、推理、拒绝）与人类截然不同。这种训练数据（人类日志）与使用场景（智能体轨迹）之间的根本性不匹配，导致检索成为智能体搜索性能的主要瓶颈。

研究目标：
提出一种新的训练范式，即直接从智能体交互数据（Agent Trajectories）中学习检索，使检索模型与智能体的反馈机制对齐。

2. 方法论 (Methodology)

作者提出了 LRAT (Learning to Retrieve from Agent Trajectories) 框架，旨在从智能体的多步执行轨迹中提取高质量的检索监督信号。

2.1 智能体轨迹分析 (Key Insights)

通过对深度研究智能体（Deep Research Agents）轨迹的系统分析，作者发现了三个关键的行为信号，用于构建监督信号：

浏览行为是成功检索的必要条件： 成功的任务轨迹中，智能体从“搜索”到“浏览（Browse）”的转换概率显著高于失败轨迹。未浏览的文档通常被视为无效信息。
未浏览文档是可靠的负样本： 与人类点击日志存在位置偏差（Position Bias）不同，智能体的浏览行为在排名位置上分布更均匀。这意味着未被浏览的文档通常是智能体经过检查后明确拒绝的，因此可以作为无偏的负样本。
浏览后的推理痕迹指示相关性强度： 智能体在浏览文档后产生的推理长度（Reasoning Length）与文档的效用高度相关。成功轨迹中，有用文档会触发更长的后续推理；无用文档则导致快速放弃。这为区分“强相关”和“弱相关”提供了细粒度信号。

2.2 LRAT 框架流程

LRAT 通过以下三个阶段将轨迹转化为训练数据：

粗粒度监督挖掘 (Naive Relevance Mining)：
- 利用 [Search] -> [Browse] 的转换构建基础监督。
- 正样本： 被智能体浏览的文档。
- 负样本： 同一检索结果集中未被浏览的文档（基于上述分析，视为可靠负样本）。
基于推理的正样本过滤 (Reasoning-Aware Positive Filtering)：
- 浏览行为本身可能包含噪声（智能体可能浏览了但发现文档无用）。
- 利用 LLM 作为裁判（LLM-as-a-Judge），分析智能体在浏览文档后产生的推理痕迹（Reasoning Traces）。
- 如果推理痕迹明确表明该文档解决了信息缺口或推动了任务，则保留为正样本；否则剔除。
强度感知的加权训练 (Intensity-Aware Training)：
- 引入**相关性强度（Relevance Intensity）**概念，不再将所有正样本同等对待。
- 权重计算： 基于浏览后的推理长度（Token 数量），使用指数饱和函数（Exponential Saturation Function）计算权重 $w$ 。推理越长，代表文档对任务贡献越大，权重越高。
- 损失函数： 采用加权对比学习（Weighted Contrastive Learning），在 InfoNCE 损失中引入权重 $w_i$ ，使高贡献文档在梯度更新中占据更大比重。

3. 关键贡献 (Key Contributions)

范式转变： 首次明确指出了人类中心检索训练与智能体搜索之间的错配，并正式提出了**“从智能体轨迹中学习检索”**这一新范式。
LRAT 框架： 提出了一种简单有效的框架，能够从智能体轨迹中自动挖掘高质量监督信号（浏览行为、未浏览负样本、推理强度），无需额外的人工标注。
实证验证与可扩展性：
- 在多个基准测试（InfoSeek-Eval, BrowseComp-Plus）和不同规模的智能体（4B 到 358B 参数）上验证了有效性。
- 证明了 LRAT 可以构建自我进化的数据飞轮（Data Flywheel）：即使使用包含错误答案的轨迹（中间交互仍有价值），也能提升检索器性能，支持检索器的持续迭代更新。

4. 实验结果 (Results)

实验在**域内（In-domain, InfoSeek-Eval）和域外（Out-of-domain, BrowseComp-Plus）**两个基准上进行，使用了多种检索器（Qwen3-Embedding, E5-Large）和多种智能体架构（Task-optimized 和 Generalist Foundation Models）。

任务成功率（Success Rate）显著提升：
- 在 InfoSeek-Eval 上，LRAT 使不同智能体的成功率平均提升 28.6%。
- 在 BrowseComp-Plus 上，平均提升 27.5%。
- 即使在超大规模模型（如 GLM-4.7 358B）上，LRAT 依然带来了显著的性能增益（例如从 67.7% 提升至 82.0%），证明检索质量仍是瓶颈。
证据召回率（Evidence Recall）增强：
- 在 BrowseComp-Plus 上，LRAT 显著提高了检索器召回标注证据文档的能力，相对提升幅度在 7% 到 37% 之间。
执行效率提升：
- 使用 LRAT 训练的检索器能减少智能体完成任务所需的平均交互步数（在 InfoSeek-Eval 上减少约 30%），表明检索结果更精准，减少了无效的探索。
消融实验：
- 验证了“粗粒度挖掘”、“推理过滤”和“强度加权”三个组件的必要性，每一步都带来了性能提升。
数据飞轮模拟：
- 模拟显示，随着迭代次数增加，检索器和智能体的性能均呈稳步上升趋势，证明了该方法在实际部署中的可持续性。

5. 意义与展望 (Significance)

解决智能体时代的检索瓶颈： 该研究解决了当前智能体搜索中“检索模型训练数据滞后于使用场景”的核心问题，为构建真正面向智能体的检索系统提供了理论基础和工程方案。
低成本、可扩展的数据来源： 证明了智能体轨迹本身就是一个丰富、低成本且可扩展的监督信号源，无需昂贵的人工标注即可实现检索器的自我进化。
构建数据飞轮： 提出了一种可持续的机制，即通过智能体的实际交互不断生成新数据来优化检索器，进而提升智能体性能，形成正向循环。
通用性： 该方法不依赖于特定的智能体架构或检索模型，具有广泛的适用性，为未来 AGI 时代的搜索基础设施指明了方向。

总结： 这篇论文通过深入分析智能体行为，提出了 LRAT 框架，成功将检索训练从“人类点击日志”转向“智能体交互轨迹”，显著提升了智能体在复杂推理任务中的表现，是迈向 Agent-centric Search 的重要一步。

Learning to Retrieve from Agent Trajectories

1. 以前的做法：给侦探配了个“人类向导”

2. 这篇论文的核心发现：观察侦探的“行动轨迹”

3. 他们提出的新方法：LRAT（向侦探学习）

4. 效果如何？

总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 智能体轨迹分析 (Key Insights)

2.2 LRAT 框架流程

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与展望 (Significance)

类似论文

Web Retrieval-Aware Chunking (W-RAC) for Efficient and Cost-Effective Retrieval-Augmented Generation Systems

Sparse Autoencoders as a Steering Basis for Phase Synchronization in Graph-Based CFD Surrogates

SUMMIR: A Hallucination-Aware Framework for Ranking Sports Insights from LLMs

From PDF to RAG-Ready: Evaluating Document Conversion Frameworks for Domain-Specific Question Answering

Synthetic Trust Attacks: Modeling How Generative AI Manipulates Human Decisions in Social Engineering Fraud