Agentic Critical Training

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为**“代理批判性训练”（Agentic Critical Training, 简称 ACT）**的新方法，旨在让大型语言模型（LLM）变得更聪明、更像一个能独立思考的“智能代理”，而不仅仅是一个只会模仿的“复读机”。

为了让你轻松理解，我们可以把训练 AI 的过程想象成教一个新手司机开车。

1. 传统方法：只会“照猫画虎”的模仿学习

目前的 AI 训练大多采用模仿学习（Imitation Learning）。

怎么做？ 就像教练把新手司机放在副驾驶，让他全程看着老司机（专家）怎么开车。老司机踩刹车、打方向盘，新手就跟着做。
缺点是什么？ 新手只学会了“在什么情况下该做什么动作”，但完全不知道**“为什么要这么做”，也不知道“如果不这么做会发生什么坏事”**。
后果： 一旦遇到教练没教过的突发状况（比如前面突然冲出一只狗，或者路变了），新手就会懵圈，甚至重复错误的动作（比如一直踩油门），因为他从未体验过“犯错”的后果，也不知道如何自我纠正。

2. 之前的改进尝试：背诵“反思日记”

最近有一种新方法（叫 Early Experience），试图让 AI 写“反思日记”。

怎么做？ 教练会让 AI 试着开错一次，然后告诉它：“看，你刚才那样做会撞车，所以老司机的做法才是对的。”然后让 AI 背诵这段解释。
问题在哪？ 这依然是在死记硬背。AI 只是学会了背诵“因为 A 所以 B"这句话，它并没有真正理解其中的逻辑。就像学生死记硬背了“牛顿第二定律”的公式，但遇到新题目时，依然不会推导。

3. 本文的 ACT 方法：让 AI 学会“挑刺”和“批判”

ACT 的核心思想是：不要教 AI 怎么“做”，先教它怎么“挑错”和“判断好坏”。

我们可以把它想象成**“驾校的模拟考官”**：

场景设置： 考官（AI）面前有两个选项：
- 选项 A：老司机的正确操作（比如：先观察后视镜再变道）。
- 选项 B：AI 自己瞎猜的错误操作（比如：直接猛打方向盘）。
训练任务： 考官不需要自己开车，它的任务只有一个：“请告诉我，哪个选项更好？并说出理由。”
关键机制（强化学习）：
- 如果考官选对了（选了 A），并且理由说得通，它就得到奖励。
- 如果选错了，或者理由胡扯，就没有奖励。
- 重点： 系统不告诉它理由应该怎么写，只告诉它“选对没”。为了拿到奖励，AI 必须自己动脑子，去分析为什么 A 比 B 好。

4. 这种方法带来了什么神奇效果？

A. 真正的“自我反思”能力

因为 AI 是为了“赢”（拿到奖励）而被迫去分析，它学会了真正的逻辑推理。

比喻： 以前它是“复读机”，现在它变成了“思考者”。当它在路上遇到没见过的情况（比如路障），它能自己分析：“刚才那个动作行不通，因为路被堵了，所以我应该换个路。”
结果： 在实验中，这种 AI 遇到失败时，能自己发现错误并纠正（比如：“哎呀，我刚才把东西放错地方了，我得先去拿个工具”），而传统的模仿学习 AI 则会像坏掉的唱片一样，重复错误动作直到死机。

B. 举一反三（泛化能力）

这种“挑刺”的能力不仅限于开车。

比喻： 就像一个人通过练习“辨别真假币”和“分析逻辑漏洞”，他的数学解题能力和科学推理能力也变强了。
实验结果： 论文发现，用 ACT 训练过的 AI，虽然只学过“开车/做任务”，但在做**数学题（MATH-500）和科学难题（GPQA）**时，表现也比那些只学过模仿的 AI 好得多。它学会了“检查自己的答案”，就像做完数学题后，会主动把答案代回去验算一样。

5. 总结：从“模仿者”到“批判性思考者”

这篇论文的核心贡献在于：

不再死记硬背： 我们不再让 AI 背诵专家的解释，而是让它通过强化学习，自己去发现“为什么这个动作比那个好”。
培养批判性思维： 通过让 AI 在“正确”和“错误”之间做选择并给出理由，它内化了一种批判性思维的能力。
全面升级： 这种能力不仅让它在做任务时更灵活（能处理意外），还能让它变得更聪明（在数学和科学推理上表现更好）。

一句话总结：
以前的 AI 像个只会跟着老师走的小学生，老师走哪它走哪；现在的 ACT 方法，让 AI 变成了一个会思考的侦探，它能自己分析案情，找出谁对谁错，甚至能解决它没见过的复杂谜题。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

核心痛点：
目前训练 LLM 自主智能体的主流方法是模仿学习 (Imitation Learning, IL)。

局限性： IL 仅通过监督微调（SFT）让模型模仿专家的成功轨迹。这教会了模型“做什么”（What to do），但没教会它“为什么做”（Why）以及“为什么要避免某些行动”。
后果： 模型缺乏对行动质量的辨别能力，无法区分最优行动与次优行动，导致在面对失败状态或未见过的场景时，缺乏自我反思和纠错能力。

现有尝试的不足：
近期工作（如 Early Experience）尝试通过让模型对比专家行动和替代行动产生的状态，生成反思文本，然后将其混入训练数据。

本质缺陷： 这本质上仍然是模仿学习。模型只是在模仿预先构建好的反思文本（Imitating pre-constructed reflection text），而不是自主地推理出为什么某个行动更好。这种“反思”是死记硬背的，而非真正内化的推理能力。

2. 方法论：代理批判性训练 (Methodology: ACT)

作者提出了 Agentic Critical Training (ACT)，这是一种基于强化学习 (RL) 的训练范式，旨在让模型自主发展出对行动质量的批判性推理能力。

2.1 核心思想

将学习目标从“模仿专家行动”转变为"识别更好的行动"。

不直接训练模型生成行动，而是训练模型在给定状态下，从“专家行动”和“模型生成的替代行动”中判断哪一个更好。
通过强化学习，仅对“判断是否正确”给予奖励，迫使模型自主发展出思维链（Chain-of-Thought, CoT）推理，以解释为何某个行动更优。

2.2 训练流程 (Training Pipeline)

整个流程分为三个阶段（如图 2 所示）：

数据构建 (Data Construction):
- 输入专家演示轨迹 $D_{expert}$ 。
- 对于每个状态 - 行动对 $(s_i, a_i)$ ，从初始策略 $\pi_{\theta_0}$ 中采样 $K$ 个替代行动。
- 过滤掉与专家行动相同的样本，将专家行动 $a^+$ 与替代行动 $a^-$ 配对，构建对比数据集 $D_{critic}$ 。
- 假设： 初始策略生成的行动平均而言劣于专家行动。
代理批判性训练 (Agentic Critical Training - Stage 2):
- 输入： 当前状态、历史轨迹、两个候选行动（一个是专家行动，一个是替代行动，顺序随机打乱）。
- 任务： 模型需要思考并输出哪个行动更好，并给出理由。
- 优化算法： 使用 GRPO (Group Relative Policy Optimization)。
- 奖励机制： 仅当模型正确选择了专家行动时给予奖励（ $R_{acc}=1$ ）。如果行动合法但未选对，给予部分奖励；格式错误则惩罚。
- 关键点： 由于没有提供反思文本的监督信号，模型必须自主发现推理逻辑（CoT）来最大化奖励，从而形成真正的“自我反思”能力。
RL 行动训练 (RL Action Training - Stage 3):
- 利用经过 ACT 训练、具备批判性推理能力的模型，进一步在专家轨迹上进行标准的 RL 训练（直接生成行动）。
- 利用其内化的“行动质量评估能力”来优化策略，提高任务成功率。

2.3 奖励函数设计

复合奖励函数 $R(s, y)$ 包含三部分：

准确性奖励 ( $R_{acc}$ ): 提取的行动与专家行动完全匹配得 1 分。
合法性奖励 ( $R_{adm}$ ): 行动合法但未匹配专家得 0.1 分（部分奖励）。
格式奖励 ( $R_{fmt}$ ): 缺少 <action> 标签则扣 0.5 分。

3. 主要贡献 (Key Contributions)

提出 ACT 范式： 首次提出通过 RL 训练智能体自主判断行动优劣，而非模仿预生成的反思文本。这种方法将批判性推理能力内化到模型参数中。
显著提升性能： 在三个具有挑战性的智能体基准测试（ALFWorld, WebShop, ScienceWorld）中，ACT 结合 IL 或 RL 均取得了最佳性能。
- 相比纯模仿学习 (IL)，平均提升 5.07 分。
- 相比纯强化学习 (RL)，平均提升 4.62 分。
- 相比基于知识蒸馏的 Early Experience 方法，平均提升 2.42 分。
强大的泛化能力：
- 分布外泛化 (OOD): 在 ALFWorld 的未见布局测试中，ACT 带来的增益更大，表明其推理能力未过拟合训练分布。
- 通用推理提升： 令人惊讶的是，仅在智能体数据上训练的 ACT 模型，在未接触任何数学或科学推理数据的情况下，在通用推理基准（MATH-500, GPQA-Diamond）上也取得了显著提升。这表明“评估和比较行动”的能力可以迁移到通用推理任务中。

4. 实验结果 (Results)

4.1 智能体任务表现

基准测试： 在 ALFWorld（具身任务）、WebShop（网页购物）、ScienceWorld（科学实验）上，RL w/ ACT 组合在所有指标上均达到最高分。
失败恢复能力： 案例研究显示，传统 IL 模型在遇到环境反馈“无反应”（失败）时，会陷入无限循环重复错误动作；而 ACT 训练后的模型能通过内部推理诊断错误原因（如“我还没去柜子”），并修正行动路径。

4.2 跨模型大小迁移

使用 Qwen3-8B 收集的数据训练 Qwen3-4B，ACT 依然有效。证明了数据收集成本可以通过跨模型复用进行摊销。

4.3 通用推理基准 (General Reasoning)

对比分析：
- IL 和 Early Experience： 在通用推理基准上表现平平甚至下降（发生“推理崩溃”，Reasoning Collapse）。IL 模型在数学题上会出现“代数死循环”或“漫无目的的游荡”，推理能力被短序列的动作模仿所覆盖。
- ACT： 在 MATH-500 和 GPQA-Diamond 上均优于基线。
机制解释： ACT 通过 RL 优化结果正确性，保留了模型原有的深度推理能力，并激发了自我验证 (Self-Verification) 行为（例如：在解物理题时，将选项代回方程进行验证）。

5. 意义与结论 (Significance & Conclusion)

范式转变： ACT 证明了通过强化学习训练智能体进行“行动质量评估”，比单纯模仿反思文本更有效。它让模型从“背诵答案”转向“理解逻辑”。
通用推理的新路径： 论文揭示了一个重要发现：代理环境（Agentic Environments）中的 RL 训练可以作为一种提升通用推理能力的途径。 通过让模型学会在复杂环境中批判性地比较行动，模型不仅学会了做任务，还增强了其底层的逻辑推理和验证能力。
未来方向： 为开发更具反思性、更鲁棒且具备通用推理能力的 LLM 智能体提供了一条有前景的技术路线。

总结： ACT 通过让模型在强化学习中自主“批判”行动，成功解决了模仿学习缺乏深度理解的缺陷，不仅大幅提升了智能体在复杂任务中的表现，还意外地增强了其在通用数学和科学推理任务上的能力，实现了从“行动模仿”到“批判性推理”的跨越。