Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种让大型人工智能（AI）变得更聪明、更会“举一反三”的新方法，名叫 LEAFE。

为了让你轻松理解，我们可以把现在的 AI 想象成一个正在学习玩高难度迷宫游戏的玩家。

1. 现在的 AI 遇到了什么麻烦？（“死记硬背”的困境）

目前，大多数 AI 训练方法（论文里叫“基于结果的强化学习”，比如 GRPO）就像是一个只盯着最终分数的教练。

场景：AI 在迷宫里乱跑，撞墙了、掉坑里了，教练不管。只有当 AI 终于走出迷宫拿到满分时，教练才说：“干得漂亮！下次就这样跑！”
问题：
- 运气成分：如果 AI 运气好，蒙对了一条路，教练就奖励它。AI 就会拼命重复这条蒙对的路，变得只会走这一条路（论文叫“分布锐化”）。
- 不懂反思：如果 AI 掉进坑里，教练只说“没得分”，AI 根本不知道为什么掉坑里，也不知道怎么爬出来。它下次可能还会掉进同一个坑，或者换个地方掉坑。
- 结果：AI 在简单任务上表现不错，但一旦遇到复杂、需要长时间规划的任务，或者需要尝试很多种可能性的时候，它就束手无策了。它就像一个只会背标准答案的学生，题目稍微变一下就不会做了。

2. LEAFE 是怎么做的？（“复盘与回退”的智慧）

LEAFE 的核心思想是：不要只盯着最后的成功，要学会从失败中“回退”并“反思”。

我们可以把 LEAFE 的训练过程比作一个拥有“时光倒流”功能的超级教练：

第一阶段：探索与“时光倒流” (Tree-Based Experience Generation)

场景：AI 在迷宫里走，发现前面路不通（比如撞墙了，或者代码报错了）。
普通教练：直接说“失败”，让 AI 重新开始。
LEAFE 教练：
1. 暂停：AI 停下来，教练问：“刚才哪一步走错了？”
2. 回退 (Rollback)：教练按下“时光倒流”按钮，把 AI 带回到犯错前的那个路口（比如第 5 步）。
3. 反思与修正：教练给 AI 看刚才的错误报告（比如“这里墙是假的，可以穿过去”），并指导 AI：“别往左走，试试往右拐。”
4. 重新尝试：AI 带着这个新经验，从第 5 步重新出发，这次走通了！
关键点：AI 不仅记住了成功的路线，更记住了**“在某个路口犯错后，如何修正并走向成功”**的具体过程。

第二阶段：内化经验 (Experience Distillation)

场景：经过成千上万次这样的“犯错 - 回退 - 修正”训练后。
普通教练：AI 每次做题前，还得先自己试错，或者靠运气猜。
LEAFE 教练：把刚才那些“回退修正”的聪明做法，直接刻进 AI 的大脑（模型参数）里。
结果：现在，当 AI 再次遇到类似的迷宫，它不需要教练提醒，也不需要“时光倒流”，它本能地就知道：“哦，走到这里如果感觉不对劲，我应该立刻换个方向，因为以前我犯过这个错，我知道怎么改。”

3. 用个通俗的比喻：学骑自行车

传统方法 (GRPO)：
你学骑车，摔倒了，教练说“重来”。你摔了 100 次，终于有一次没摔着，教练说“好！以后就按刚才那个姿势骑”。结果你只会骑这一种姿势，稍微有点风或者路面不平，你就又摔了。你只学会了**“怎么不摔倒”，没学会“怎么在快摔倒时保持平衡”**。
LEAFE 方法：
你快摔倒时，教练立刻喊“停！”，把你扶回到快摔倒前那一秒。教练告诉你：“刚才你身体向左歪了，所以车往右倒。下次感觉要往左歪时，立刻把车把往右打一点，身体重心移过去。”
你反复练习这种“快摔倒时的修正动作”。最后，你内化了这种平衡感。即使没人扶你，遇到突发情况，你的身体也能自动做出正确的调整，不再依赖运气。

4. 这篇论文证明了什么？

研究人员在编程、网页导航、解谜游戏等很多复杂任务上测试了 LEAFE。

结果：
- 单次成功率 (Pass@1)：LEAFE 比传统方法略有提升或持平。
- 多次尝试成功率 (Pass@128)：这是关键！当允许 AI 多尝试几次（比如给它 128 次机会）时，LEAFE 的表现远远甩开了传统方法。
- 意义：这说明 LEAFE 训练的 AI，能力上限更高，它不仅仅是在“背答案”，而是真正学会了**“如何解决问题”**。它像一个经验丰富的老手，面对新问题时，知道如何调整策略，而不是死磕一条路。

总结

这篇论文提出了一种让 AI 从**“死记硬背成功结果”转变为“学会反思和修正错误”**的方法。

它不再让 AI 盲目地重复成功，而是教它**“在哪里跌倒，就在哪里爬起来，并记住爬起来的方法”**。这让 AI 在面对复杂、长期的任务时，变得更加灵活、聪明和可靠。就像把一个只会背公式的学生，培养成了一个真正懂得解题逻辑的专家。

Each language version is independently generated for its own context, not a direct translation.

论文技术总结：从反思经验中内化智能体能力 (Internalizing Agency from Reflective Experience)

1. 研究背景与问题定义 (Problem)

随着大语言模型（LLM）从被动响应者转变为自主智能体（Autonomous Agents），它们需要在复杂环境中进行长程交互、规划、行动并从错误中恢复。然而，当前的后训练方法（Post-training Methods）存在显著局限性：

现有方法的缺陷：主流方法（如基于可验证奖励的强化学习 RLVR，例如 GRPO）主要优化最终的结果信号（Success/Fail）。在长程交互中，这种单一的终端标量奖励导致**分布锐化（Distribution Sharpening）**现象：模型倾向于重复少数已成功的行为模式，从而提高了单次尝试的成功率（Pass@1），但未能有效利用环境中丰富的结构化反馈（如编译器错误、状态转换失败等）。
核心痛点：
1. 反馈利用不足：RLVR 将丰富的中间反馈简化为标量信号，缺乏对“哪里出错”以及“如何修正”的细粒度指导。
2. 探索能力受限：模型难以在长程任务中扩展其解决问题的能力边界（即 Pass@k，特别是大 k 值下的表现），往往依赖昂贵的测试时计算（如多次重试、树搜索）来规避早期错误。
3. 缺乏内化恢复能力：模型未能将“从错误中恢复”的能力内化为自身的策略，导致在推理阶段无法自主修正轨迹。

2. 方法论：LEAFE 框架 (Methodology)

为了解决上述问题，作者提出了 LEAFE (Learning Feedback-Grounded Agency from Reflective Experience) 框架。该框架旨在通过反思性经验，将基于反馈的恢复能力内化到模型权重中。LEAFE 包含两个关键阶段：

第一阶段：基于回滚的树状经验生成 (Tree-Based Experience Generation with Rollback)

在此阶段，智能体在探索过程中主动生成高质量的“反思 - 修正”数据：

周期性反思 (Periodic Reflection)：智能体在交互过程中（每 K 步或遇到失败时）触发反思机制。
定位与回滚 (Rollback)：模型识别导致轨迹偏离的次优决策点 $\tau$ ，并将环境状态回滚至该点。
经验总结与分支探索：模型生成行动指南（Experience Summary, $e$ ），诊断错误原因并提供修正建议。随后，基于修正后的动作 $a'_\tau$ 重新执行，生成一条新的轨迹分支。
数据结构：形成“失败 $\to$ 回滚 $\to$ 修正 $\to$ 成功”的轨迹数据，构建了一个隐式的回滚树（Rollback Tree）。

第二阶段：经验蒸馏 (Experience Distillation)

将第一阶段生成的经验内化为模型参数，使其在推理时不再依赖外部提示：

行为复演 (Behavior Rehearsal, $L_{reh}$ )：从成功轨迹（包括分支探索产生的）中提取状态 - 动作对，通过监督微调保持模型的基础任务能力，防止灾难性遗忘。
经验到策略的蒸馏 (Experience-to-Policy Distillation, $L_{cf}$ )：这是核心创新。模型学习在没有显式反思提示（Experience $e$ $e$ ）的情况下，仅凭原始历史 $h_\tau$ $h_{τ}$ 和指令 $q$ $q$ ，直接输出修正后的动作 $a'_\tau$ $a_{τ}^{'}$ 。
- 目标：将“在反思指导下修正错误”的能力转化为模型内在的策略分布，使模型具备内生的纠错能力。
联合优化：最终损失函数为 $L(\theta') = L_{cf}(\theta') + \beta L_{reh}(\theta')$ ，平衡了纠错能力的学习与基础能力的保持。

3. 主要贡献 (Key Contributions)

结构化的反馈转经验探索：提出了基于回滚的反思机制，将标量信号转化为可操作的“回滚 + 修正”分支，实现了超越基础策略主导模式的定向探索。
比标量奖励更丰富的监督信号：提供了决策级别的“反思 $\to$ 修正”监督，明确指出了轨迹出错的位置及修正方案，而非仅依赖终端奖励。
内化恢复提升 Pass@k：通过在回滚后的修正动作上进行微调，将基于反馈的恢复能力内化到模型权重中。实验表明，这显著扩大了行为覆盖范围，大幅提升了长程交互中的 Pass@k 性能（最高提升 14%）。

4. 实验结果 (Results)

作者在多个长程交互基准测试中评估了 LEAFE，包括 WebShop, ALFWorld, ScienceWorld, Sokoban 以及 CodeContests。

性能提升：
- Pass@128 显著领先：LEAFE 在所有任务中均显著优于基线（Base, GRPO, EarlyExp, ACE）。特别是在 CodeContests 上，Pass@128 相比基线模型提升了高达 14%。
- Pass@1 表现稳健：LEAFE 在 Pass@1（单次尝试成功率）上也普遍优于基线模型，或至少保持相当水平。
- 对比 GRPO：GRPO 往往在 Pass@1 上有提升，但在 Pass@k（大 k 值）上趋于饱和甚至下降（分布锐化）；而 LEAFE 随着采样预算增加，成功率持续上升，展现了更强的探索能力上限。
泛化能力 (OOD)：在 MBPP 数据集上的测试表明，LEAFE 在分布外（OOD）任务上表现出比 GRPO 更强的鲁棒性，避免了过拟合特定数据集的捷径。
消融实验：
- 证明了“经验到策略蒸馏”（ $L_{cf}$ ）对于内化纠错能力至关重要，仅靠行为复演（ $L_{reh}$ ）无法显著提升 Pass@128。
- 展示了不同采样策略（独立采样 vs. 迭代修正 vs. LEAFE 回滚分支）中，LEAFE 的树状分支策略在固定预算下效率最高。

5. 意义与影响 (Significance)

范式转变：LEAFE 将智能体训练的重心从“依赖终端奖励的分布锐化”转向“基于反思经验的内化恢复”。它证明了通过显式学习如何修正错误，可以显著提升模型在长程复杂任务中的适应能力。
降低推理成本：通过将纠错能力内化到模型中，减少了对测试时复杂搜索（如树搜索、多次重试）的依赖，降低了部署延迟和计算成本。
通用性：该方法适用于多种需要长程规划和错误恢复的场景（编程、导航、科学实验等），为构建更鲁棒、更自主的 LLM 智能体提供了新的训练范式。

总结：LEAFE 通过“回滚 - 反思 - 修正 - 蒸馏”的闭环，成功将环境反馈转化为模型内在的决策能力，解决了传统 RLVR 方法在长程任务中探索能力不足的问题，显著提升了智能体在复杂环境中的综合表现。

Internalizing Agency from Reflective Experience