In-Context Reinforcement Learning for Tool Use in Large Language Models

该论文提出了一种名为“上下文强化学习”(ICRL)的新框架,通过仅在强化学习阶段利用逐步减少的少样本提示来训练大语言模型使用外部工具,从而在无需监督微调(SFT)的情况下实现了高效且可扩展的工具调用能力,并在多项基准测试中取得了最先进的性能。

Yaoqi Ye, Yiran Zhao, Keyu Duan, Zeyu Zheng, Kenji Kawaguchi, Cihang Xie, Michael Qizhe Shieh

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种让大型语言模型(LLM)学会“使用工具”(比如上网搜索、运行代码)的新方法,叫做ICRL(上下文强化学习)

为了让你轻松理解,我们可以把训练一个 AI 模型比作教一个刚毕业的大学生去当一名“超级侦探”

1. 以前的做法:先死记硬背,再实战演练(SFT + RL)

以前的方法通常分两步走:

  • 第一步(SFT,监督微调): 老师(人类专家)先给这个大学生发一本厚厚的《侦探手册》,里面全是写好的案例:遇到什么问题,该查什么书,怎么查,最后怎么写报告。学生必须先把这本手册背得滚瓜烂熟,甚至要背诵几千个标准答案。
    • 缺点: 写这本手册太贵、太慢了。而且如果手册里没教过的新情况,学生可能就不会处理。
  • 第二步(RL,强化学习): 背完手册后,学生开始去案发现场(真实任务)试错。做对了给奖励,做错了扣分。
    • 缺点: 如果学生连手册都没背熟,直接去现场,他可能会像无头苍蝇一样乱撞,效率极低。

2. 这篇论文的新方法:ICRL(上下文强化学习)

ICRL 觉得:“干嘛要背那么厚的手册呢?我们可以边做边学!”

它把训练过程变成了一个**“渐退式”的实习计划**:

  • 第一阶段(带教实习):
    刚开始,老师不给学生发手册,而是直接在“考题”旁边贴几个**“优秀侦探的解题便签”**(Few-shot examples)。

    • 比喻: 就像你做题时,旁边坐着个学霸,他写了几步:“遇到这个问题,先搜一下 A,再搜一下 B,最后得出结论”。学生看着这些便签,模仿着去搜索、去推理。
    • 关键点: 这时候不需要老师给每个步骤打分,只要最后答案对了,就奖励学生。
  • 第二阶段(半脱产实习):
    学生练了几次后,老师把便签里的例子少贴一个

    • 比喻: 老师把“解题便签”从 3 张减到 2 张。学生得自己多动点脑子,不能完全照抄了。
  • 第三阶段(独立上岗):
    最后,老师把便签全部撤掉(Zero-shot)。

    • 比喻: 现在学生要独立办案了。但他之前看着便签练出来的“肌肉记忆”还在,他已经内化了“遇到难题先搜索,再推理”的习惯,不再需要别人手把手教。

3. 这个方法好在哪里?

  • 省钱省力(数据高效): 不需要人类专家花几个月去写那本厚厚的《侦探手册》(SFT 数据)。只需要几个简单的例子(便签)就能启动训练。
  • 学得更灵活: 因为学生是在“实战”中看着例子学的,而不是死记硬背,所以遇到没见过的案子,他也能灵活变通,自己想办法去搜索信息。
  • 效果惊人: 论文里的实验显示,用这种方法训练的 AI,在回答复杂问题(比如需要查好几步才能知道答案的“多跳推理”)时,成绩比那些背了厚手册的 AI 还要好!

4. 总结

简单来说,ICRL 就是**“带着例子去实战,然后慢慢撤掉例子”**。

它让 AI 像人类学徒一样,通过观察几个范例,在不断的尝试和奖励中,自己悟出了“如何使用工具”的精髓,而不是靠死记硬背。这不仅让 AI 变得更聪明,还大大降低了训练它的成本。

一句话概括: 以前教 AI 用工具像“先背完字典再出门”,现在 ICRL 是“给你看几个例子,你就在实战中自己学会怎么查字典”。