Learning to Reason without External Rewards

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种让大语言模型（LLM）“自我进化”的新方法，叫做 INTUITOR。

为了让你轻松理解，我们可以把训练大模型想象成教一个学生解题。

1. 以前的做法：靠“老师”和“标准答案” (RLHF & RLVR)

传统方法 (RLHF)：就像请了一位人类老师。学生做完题，老师要一个个批改，告诉他对错，甚至要解释为什么。
- 缺点：太贵了！找那么多老师批改，还要防止老师有偏见，成本极高。
验证奖励法 (RLVR)：就像给学生发了一套“标准答案”和“自动阅卷机”。比如数学题，只要最后算出的数字和答案一样，就给满分；代码题，只要运行通过测试用例，就给满分。
- 缺点：这招只对数学、代码这种有“唯一正确答案”的领域管用。如果让学生写诗、写小说或者做复杂的逻辑推理，哪里来的“标准答案”呢？而且，如果题目太偏，连阅卷机都跑不起来。

现在的困境：我们想要让 AI 变得更聪明，能处理各种复杂任务，但要么缺老师（太贵），要么缺标准答案（太难找）。

2. 这篇论文的新招：靠“直觉”和“自信” (RLIF & INTUITOR)

作者提出了一个大胆的想法：既然没有老师，也没有标准答案，能不能让学生自己当自己的老师？

这就是 INTUITOR 的核心逻辑：

核心信号：不看答案对不对，只看学生**“有多自信”**。
原理：
- 当一个学生面对难题，如果心里没底，他可能会胡言乱语，或者答案模棱两可（就像你不确定时说话会结巴、犹豫）。
- 如果学生非常自信，他的思路通常更清晰，逻辑更连贯，答案也更靠谱。
- INTUITOR 的做法：它计算模型对自己生成的每一个字有多“确定”（论文里叫“自确信度”，Self-certainty）。越自信，奖励越高。

3. 一个生动的比喻：练琴的“心流”

想象一个钢琴学生在练习一首很难的曲子：

以前的训练：老师站在旁边，弹错一个音就扣分，弹对就加分。如果老师不在，学生就不知道练得对不对。
INTUITOR 的训练：没有老师。学生自己听自己弹。
- 如果他弹得磕磕巴巴，心里发虚，那种“不顺畅感”就是低分。
- 如果他弹得行云流水，内心充满“这就是对的”那种笃定感，那就是高分。
- 结果：为了追求这种“笃定感”和“流畅感”，学生会自发地去反复练习，直到把曲子练得滚瓜烂熟，甚至能即兴发挥。

4. 实验结果：意想不到的“超能力”

作者用这个方法训练了模型，发现了一些有趣的现象：

数学题没输：在有标准答案的数学题上，它表现得和那些有“标准答案”辅助的顶尖方法（GRPO）一样好。
代码题更强了：这是最惊人的！模型只在数学题上练了“自信”，结果去写代码（完全没练过）时，表现竟然比那些专门练过代码的模型还要好。
- 比喻：就像你通过练书法（数学）练出了极强的“笔力”和“结构感”，结果让你去画画（代码），你画得比专门学画画的人还好。这说明**“自信”这种内在能力是可以迁移的**。
学会了“思考”：以前模型可能直接蹦出一个答案。现在，为了让自己更“自信”，模型开始主动在答案前面加上一大段推理过程（就像学生先写解题思路，再写答案）。这种“自我解释”的能力，让模型变得更聪明、更可靠。
不再胡言乱语：原本只会重复废话的小模型，经过训练后，开始能写出逻辑通顺的长文章和代码了。

5. 为什么这很重要？

省钱：不需要请人类老师，也不需要准备昂贵的标准答案库。
通用：不管是什么任务（写诗、写代码、做决策），只要模型能产生“自信”的信号，就能自我提升。
未来：这为未来的超级 AI 指明了一条路——自我进化。当 AI 的能力超过人类，人类可能无法判断对错时，AI 可以依靠这种“内在的自信机制”来不断变强，而不需要人类手把手教。

总结

这篇论文就像是在说：“别总等着别人告诉你答案，学会相信自己的直觉（自信），你自己就能练成绝世高手。”

INTUITOR 就是那个让 AI 学会“自我信任”的教练，让它在没有老师、没有标准答案的情况下，也能通过“追求内心的笃定感”来变得越来越聪明。

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 INTUITOR 的新方法，属于 从内部反馈强化学习 (Reinforcement Learning from Internal Feedback, RLIF) 的范畴。该方法旨在解决当前大语言模型（LLM）推理能力训练中对外部奖励（如人工标注或特定领域的可验证答案）过度依赖的问题。

以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

现有方法的局限性：
- RLHF (基于人类反馈的强化学习)：需要大量昂贵的人类标注数据，且存在主观偏差。
- RLVR (基于可验证奖励的强化学习)：虽然利用自动验证信号（如数学题的正确答案匹配、代码测试用例）提升了推理能力，但其应用受限于特定领域。它需要“金标准”答案（Gold Solutions）或完整的测试套件，难以应用于开放域任务（如代码生成、创意写作）或人类难以直接评估的超人类能力场景。
核心挑战：能否让 LLM 仅依靠内在的、自生成的信号（Intrinsic Signals）来提升推理能力，而无需外部验证器或领域特定的真值（Ground Truth）？

2. 方法论 (Methodology)

2.1 核心概念：RLIF 与 INTUITOR

作者提出了 RLIF 范式，即模型利用自身生成的反馈信号来优化策略。在此基础上，提出了 INTUITOR 算法。

奖励信号：自确定性 (Self-Certainty)
- INTUITOR 不使用外部奖励，而是将模型自身的置信度作为唯一的奖励信号。
- 定义：自确定性被定义为模型输出分布与均匀分布之间的平均 KL 散度（KL Divergence）。
- 公式：
  $\text{Self-certainty}(o|q) := \frac{1}{|o|} \sum_{i=1}^{|o|} \text{KL}(U \parallel p_{\pi_\theta}(\cdot|q, o_{<i}))$
  其中 $U$ 是词汇表上的均匀分布， $p_{\pi_\theta}$ 是模型在给定上下文下的预测分布。
- 原理：高自确定性意味着模型对生成的 token 分布更加集中（即更确信），这通常与高质量、逻辑连贯的回答相关。与熵（Entropy）不同，自确定性是“模式寻求（mode-seeking）”的，且不易受生成长度的偏差影响。
优化算法：基于 GRPO 的策略优化
- 采用 Group Relative Policy Optimization (GRPO) 框架。
- 流程：
  1. 对于每个输入问题 $q$ ，采样一组 $G$ 个候选输出 $\{o_1, ..., o_G\}$ 。
  2. 计算每个输出的自确定性分数 $u_i$ 。
  3. 在组内计算优势函数（Advantage）： $\hat{A}_i = \text{Normalize}(u_i - \text{mean}(\{u_1, ..., u_G\}))$ 。
  4. 利用这些相对优势更新策略，鼓励生成模型自身认为更“确信”的回答。
- 在线机制：奖励信号（自确定性）由当前正在训练的策略模型（Online Policy）实时计算，而非固定的参考模型。这防止了模型通过“奖励黑客”（Reward Hacking）手段（如生成无意义的长文本）来欺骗静态奖励模型。

3. 主要贡献 (Key Contributions)

提出 RLIF 范式：探索并验证了仅依靠模型内在信号进行强化学习的可行性，摆脱了对昂贵外部监督的依赖。
设计 INTUITOR 算法：创新性地使用“自确定性”作为单一内在奖励，替代了传统的可验证奖励。
实现无监督推理提升：证明了在没有金标准答案的情况下，模型可以学习到结构化的推理链条，并在数学推理和代码生成任务上达到甚至超越有监督 RL 方法的效果。
揭示涌现能力：发现内在奖励能促使模型自发产生“先推理后回答”的长思维链（Chain-of-Thought），并增强了指令遵循能力。

4. 实验结果 (Results)

实验基于 Qwen2.5 系列模型（1.5B, 3B, 7B, 14B）以及 Llama 和 OLMo 模型，在 MATH 数据集上进行训练，并在多个基准测试中评估。

领域内性能 (In-Domain)：
- 在数学推理基准（GSM8K, MATH500）上，INTUITOR 的性能与使用金标准答案的 GRPO 方法相当，甚至在某些设置下（如 Qwen2.5-3B）略优或持平。
- 相比 GRPO，INTUITOR 在训练初期（前 10 步）表现出更快的学习速度。
跨领域泛化 (Out-of-Domain Generalization)：
- 代码生成：仅在数学数据上训练的 INTUITOR 模型，在 LiveCodeBench 和 CRUXEval 等代码任务上表现出显著的泛化能力。
  - 例如，Qwen2.5-3B 在 MATH 上训练后，LiveCodeBench 得分提升了 65%（相对提升），而同等条件下的 GRPO 几乎没有提升。
  - CRUXEval-O 得分提升了 76%，优于 GRPO 的 44%。
- 指令遵循：在 AlpacaEval 2.0 上，INTUITOR 显著提升了模型的指令遵循能力和长度控制胜率，减少了无意义的重复输出（Gibberish）。
结构化推理的涌现：
- 观察发现，INTUITOR 训练后的模型倾向于在最终答案前生成详细的自然语言推理过程（即使提示词要求直接输出 JSON 或代码）。这种“先思考后行动”的模式被认为是性能提升的关键。
- 模型逐渐学会区分正确与错误的回答（通过自确定性分布的分离度验证），且在线自确定性机制有效防止了奖励滥用导致的性能崩溃。
消融实验：
- 对比了熵最小化（Entropy Minimization）和随机奖励，发现这些方法容易导致模型陷入重复循环或性能崩溃，而 INTUITOR 表现出更强的鲁棒性。
- 验证了在线自确定性（Online Self-certainty）比离线（固定模型）自确定性更能防止奖励黑客行为。

5. 意义与未来展望 (Significance)

可扩展性与自主性：INTUITOR 提供了一种可扩展的替代方案，使得 AI 系统能够在没有人类监督或特定领域验证器的情况下进行自我改进。这对于构建能够处理开放域任务、甚至具备超人类能力的自主 AI 系统至关重要。
挖掘潜在能力：研究表明，预训练模型内部蕴含着比之前认知更丰富的行为先验（Latent Behavioral Priors），仅通过优化内在置信度即可被激发出来。
未来方向：
- 将 RLIF 与 RLHF 或 RLVR 结合，利用多信号协同优化。
- 在更大规模的基础模型和更多样化的真实世界数据集上验证该方法。
- 深入理论研究 RLIF 的收敛机制和理论边界。

总结：INTUITOR 证明了大语言模型可以通过“自我反思”（利用自确定性作为内在奖励）来显著提升推理和泛化能力，无需依赖昂贵的外部标注，为构建更自主、更通用的 AI 系统开辟了新路径。代码已开源。

Learning to Reason without External Rewards

1. 以前的做法：靠“老师”和“标准答案” (RLHF & RLVR)

2. 这篇论文的新招：靠“直觉”和“自信” (RLIF & INTUITOR)

3. 一个生动的比喻：练琴的“心流”

4. 实验结果：意想不到的“超能力”

5. 为什么这很重要？

总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 核心概念：RLIF 与 INTUITOR

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与未来展望 (Significance)

类似论文

QA-Dragon: Query-Aware Dynamic RAG System for Knowledge-Intensive Visual Question Answering

OraPO: Oracle-educated Reinforcement Learning for Data-efficient and Factual Radiology Report Generation

Stop Before You Fail: Operational Capability Boundaries for Mitigating Unproductive Reasoning in Large Reasoning Models

Seeing Straight: Document Orientation Detection for Efficient OCR

On the Existence and Behavior of Secondary Attention Sinks