Internalizing Agency from Reflective Experience

本文提出了 LEAFE 框架,通过让大语言模型在探索过程中总结环境反馈、回溯决策点并尝试替代方案,将反思经验蒸馏为监督微调数据,从而在长程交互任务中显著提升了模型从错误中恢复的自主性(Agency)及 Pass@k 性能。

Rui Ge, Yichao Fu, Yuyang Qian, Junda Su, Yiming Zhao, Peng Zhao, Hao Zhang

发布于 2026-03-18
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种让大型人工智能(AI)变得更聪明、更会“举一反三”的新方法,名叫 LEAFE

为了让你轻松理解,我们可以把现在的 AI 想象成一个正在学习玩高难度迷宫游戏的玩家

1. 现在的 AI 遇到了什么麻烦?(“死记硬背”的困境)

目前,大多数 AI 训练方法(论文里叫“基于结果的强化学习”,比如 GRPO)就像是一个只盯着最终分数的教练

  • 场景:AI 在迷宫里乱跑,撞墙了、掉坑里了,教练不管。只有当 AI 终于走出迷宫拿到满分时,教练才说:“干得漂亮!下次就这样跑!”
  • 问题
    • 运气成分:如果 AI 运气好,蒙对了一条路,教练就奖励它。AI 就会拼命重复这条蒙对的路,变得只会走这一条路(论文叫“分布锐化”)。
    • 不懂反思:如果 AI 掉进坑里,教练只说“没得分”,AI 根本不知道为什么掉坑里,也不知道怎么爬出来。它下次可能还会掉进同一个坑,或者换个地方掉坑。
    • 结果:AI 在简单任务上表现不错,但一旦遇到复杂、需要长时间规划的任务,或者需要尝试很多种可能性的时候,它就束手无策了。它就像一个只会背标准答案的学生,题目稍微变一下就不会做了。

2. LEAFE 是怎么做的?(“复盘与回退”的智慧)

LEAFE 的核心思想是:不要只盯着最后的成功,要学会从失败中“回退”并“反思”。

我们可以把 LEAFE 的训练过程比作一个拥有“时光倒流”功能的超级教练

第一阶段:探索与“时光倒流” (Tree-Based Experience Generation)

  • 场景:AI 在迷宫里走,发现前面路不通(比如撞墙了,或者代码报错了)。
  • 普通教练:直接说“失败”,让 AI 重新开始。
  • LEAFE 教练
    1. 暂停:AI 停下来,教练问:“刚才哪一步走错了?”
    2. 回退 (Rollback):教练按下“时光倒流”按钮,把 AI 带回到犯错前的那个路口(比如第 5 步)。
    3. 反思与修正:教练给 AI 看刚才的错误报告(比如“这里墙是假的,可以穿过去”),并指导 AI:“别往左走,试试往右拐。”
    4. 重新尝试:AI 带着这个新经验,从第 5 步重新出发,这次走通了!
  • 关键点:AI 不仅记住了成功的路线,更记住了**“在某个路口犯错后,如何修正并走向成功”**的具体过程。

第二阶段:内化经验 (Experience Distillation)

  • 场景:经过成千上万次这样的“犯错 - 回退 - 修正”训练后。
  • 普通教练:AI 每次做题前,还得先自己试错,或者靠运气猜。
  • LEAFE 教练:把刚才那些“回退修正”的聪明做法,直接刻进 AI 的大脑(模型参数)里
  • 结果:现在,当 AI 再次遇到类似的迷宫,它不需要教练提醒,也不需要“时光倒流”,它本能地就知道:“哦,走到这里如果感觉不对劲,我应该立刻换个方向,因为以前我犯过这个错,我知道怎么改。”

3. 用个通俗的比喻:学骑自行车

  • 传统方法 (GRPO)
    你学骑车,摔倒了,教练说“重来”。你摔了 100 次,终于有一次没摔着,教练说“好!以后就按刚才那个姿势骑”。结果你只会骑这一种姿势,稍微有点风或者路面不平,你就又摔了。你只学会了**“怎么不摔倒”,没学会“怎么在快摔倒时保持平衡”**。

  • LEAFE 方法
    你快摔倒时,教练立刻喊“停!”,把你扶回到快摔倒前那一秒。教练告诉你:“刚才你身体向左歪了,所以车往右倒。下次感觉要往左歪时,立刻把车把往右打一点,身体重心移过去。”
    你反复练习这种“快摔倒时的修正动作”。最后,你内化了这种平衡感。即使没人扶你,遇到突发情况,你的身体也能自动做出正确的调整,不再依赖运气。

4. 这篇论文证明了什么?

研究人员在编程、网页导航、解谜游戏等很多复杂任务上测试了 LEAFE。

  • 结果
    • 单次成功率 (Pass@1):LEAFE 比传统方法略有提升或持平。
    • 多次尝试成功率 (Pass@128):这是关键!当允许 AI 多尝试几次(比如给它 128 次机会)时,LEAFE 的表现远远甩开了传统方法。
    • 意义:这说明 LEAFE 训练的 AI,能力上限更高,它不仅仅是在“背答案”,而是真正学会了**“如何解决问题”**。它像一个经验丰富的老手,面对新问题时,知道如何调整策略,而不是死磕一条路。

总结

这篇论文提出了一种让 AI 从**“死记硬背成功结果”转变为“学会反思和修正错误”**的方法。

它不再让 AI 盲目地重复成功,而是教它**“在哪里跌倒,就在哪里爬起来,并记住爬起来的方法”**。这让 AI 在面对复杂、长期的任务时,变得更加灵活、聪明和可靠。就像把一个只会背公式的学生,培养成了一个真正懂得解题逻辑的专家。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →