Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 T2T (Thickening-to-Thinning，即“由厚变薄”) 的新方法，用来教大型人工智能（LLM）如何更好地进行逻辑推理和解题。

为了让你轻松理解，我们可以把训练 AI 的过程想象成教一个学生做数学题。

1. 现在的痛点：要么太啰嗦，要么太急躁

目前的 AI 训练方法（叫 RLVR）有点像这样：

只要答案对，就给满分；只要答案错，就给零分。
这导致 AI 很困惑：
- 遇到难题时，它不敢多思考，怕想多了反而出错，或者因为太啰嗦被扣分。
- 遇到简单题时，它又可能废话连篇，像是一个话痨，明明一句话能说清，非要写三页纸。
结果：AI 要么在难题上“卡壳”（探索不够），要么在简单题上“注水”（效率太低）。

2. T2T 的核心灵感：华罗庚的读书法

作者从人类的学习智慧中找到了灵感，引用了数学家华罗庚的一句名言：“读书要由薄变厚，再由厚变薄。”

由薄变厚（Thickening）：刚开始学新知识或遇到难题时，我们要**“厚”。这意味着要广泛尝试、大胆猜测、甚至允许自己写很多废话和错误的尝试。这时候，“多写”是好事**，因为它能帮我们探索更多的可能性，找到解题的线索。
由厚变薄（Thinning）：一旦我们搞懂了，就要**“薄”。这时候要“精简”**，把废话去掉，只保留最核心的逻辑，形成简洁、高效的解题套路。

3. T2T 是怎么工作的？（给 AI 的“动态奖励”）

T2T 给 AI 设计了一套**“看人下菜碟”**的奖励机制，根据 AI 当前的表现动态调整规则：

第一阶段：遇到难题或做错了 -> 鼓励“变厚” (Thickening)

场景：AI 尝试解题但失败了，或者这道题很难，它还没掌握。
奖励规则：这时候，AI 写得越长、尝试得越多，奖励反而越高！
比喻：就像老师对学生说：“这道题很难，你虽然做错了，但你尝试了三种不同的方法，写了长长的推导过程，这种探索精神值得表扬！继续想，别怕啰嗦！”
目的：强迫 AI 在困难问题上多花“脑力”，扩大搜索范围，直到找到正确答案。

第二阶段：做对了 -> 鼓励“变薄” (Thinning)

场景：AI 终于做对了这道题，说明它已经掌握了。
奖励规则：这时候，AI 写得越短、越精炼，奖励越高！如果它还在啰嗦，就要扣分。
比喻：老师接着说：“好，你已经会做这道题了。现在我们要**‘去粗取精’**，把那些多余的废话删掉，用最简洁的语言把解题思路讲清楚，这样你以后解题才快！”
目的：让 AI 把学到的知识“内化”成高效的技能，避免以后遇到简单题还啰里啰嗦。

4. 为什么要这么做？（像人类一样学习）

以前的训练方法像是一个**“死板的考官”**，不管你是刚开始学还是已经是大神，都用同一套标准（要么全对，要么全错）。

T2T 则像一位**“懂心理学的导师”**：

在你迷茫时，它鼓励你**“多折腾”**（由薄变厚），帮你找到路。
在你精通时，它督促你**“做减法”**（由厚变薄），帮你提升效率。

5. 实验结果怎么样？

作者在数学竞赛（如 AIME, AMC）和复杂的逻辑题上测试了这种方法。

结果：使用 T2T 训练的 AI，在难题上表现更好（因为它敢探索了），在简单题上速度更快（因为它不啰嗦了）。
对比：比传统的训练方法（GRPO）和其他改进方法都要强，而且不需要额外的硬件成本，只是改变了“打分规则”。

总结

这就好比教孩子骑自行车：

刚开始（Thickening）：你给他装两个辅助轮，让他多骑、多摔、多尝试，不要怕他骑得慢或姿势乱，重点是敢骑。
学会了（Thinning）：一旦他稳了，你就把辅助轮拆了，要求他骑得又稳又快，不再允许他摇摇晃晃。

T2T 就是让 AI 学会这种“先大胆探索，后高效总结”的人类智慧，从而变得更聪明、更灵活。

Each language version is independently generated for its own context, not a direct translation.

论文技术总结：Thickening-to-Thinning (T2T)：基于人类启发式学习动态的 LLM 推理奖励塑形

1. 研究背景与问题 (Problem)

背景：
带有可验证奖励的强化学习（RLVR）已成为提升大语言模型（LLM）推理能力（如数学、代码）的有效范式。现有的方法（如 GRPO）通常基于序列级别的二值奖励（正确得 1 分，错误得 0 分）。

核心痛点：
现有的奖励机制未能区分**“探索阶段”与“掌握阶段”**的不同需求，导致以下问题：

熵崩溃（Entropy Collapse）： 模型过早收敛，缺乏多样性，难以探索复杂问题的解空间。
过度冗长（Excessive Verbosity）： 即使模型已经掌握了知识，仍倾向于生成冗长、重复的推理过程，浪费计算资源。
探索与压缩的混淆： 标准方法对所有正确输出一视同仁，未能在“需要广泛搜索的难题”和“需要高效复现的已掌握知识”之间进行动态权衡。

2. 方法论 (Methodology)

本文提出了 T2T (Thickening-to-Thinning，由厚变薄) 框架，这是一种受人类学习过程启发的动态奖励塑形（Reward Shaping）策略。其核心理念源自华罗庚的“读书由厚变薄”原则：先通过广泛探索“读厚”，再通过抽象压缩“读薄”。

2.1 核心机制：双阶段动态奖励

T2T 根据模型在特定问题上的**当前成功率（Competence）**动态调整对生成长度的奖惩：

增厚阶段 (Thickening) - 针对错误尝试/低成功率：
- 场景： 当模型在某个问题上尝试失败（ $V(q, o)=0$ ）或整体成功率 $p$ 较低时。
- 策略： 鼓励生成更长的推理轨迹（Longer Trajectories）。
- 目的： 扩大搜索空间，探索新颖的解题路径，增加发现稀有正确解的概率。
- 奖励逻辑： 错误样本的长度越长，获得的奖励越高（ $\propto \alpha \cdot s_L(o) \cdot (1-p)$ ）。
变薄阶段 (Thinning) - 针对正确尝试/高成功率：
- 场景： 当模型成功解决问题（ $V(q, o)=1$ ）且对该问题的掌握度较高（ $p$ 较高）时。
- 策略： 施加长度惩罚，鼓励生成更简洁的解决方案。
- 目的： 去除冗余信息，提炼核心逻辑，巩固推理能力，提高推理效率。
- 奖励逻辑： 正确样本的长度越短，获得的净奖励越高（ $\propto 1 - \alpha \cdot s_L(o) \cdot p$ ）。

2.2 数学形式化

T2T 奖励函数 $R_{T2T}$ 定义为：
$R_{T2T}(q, o, \theta) = \begin{cases} 1 - \alpha \cdot s_L(o) \cdot p, & \text{if } V(q, o) = 1 \quad (\text{正确}) \\ \alpha \cdot s_L(o) \cdot (1 - p), & \text{if } V(q, o) = 0 \quad (\text{错误}) \end{cases}$
其中：

$V(q, o)$ 是验证器（正确为 1，错误为 0）。
$s_L(o)$ 是归一化的长度分数。
$p$ 是当前策略在查询 $q$ 上的估计成功率（On-policy pass-rate）。
$\alpha$ 是调节系数（$0 < \alpha < 0.5$），确保任何正确输出的奖励始终高于错误输出。

关键特性：

无需额外模型： 仅修改奖励函数，不引入辅助模型或 Token 级监督。
在线适应： 奖励权重随模型对问题的掌握程度（ $p$ ）动态变化。
偏好排序： T2T 诱导了明确的偏好顺序：短正确 > 长正确 > 长错误 > 短错误。

3. 主要贡献 (Key Contributions)

提出了“由厚变薄”的学习动态范式： 首次将人类学习中“先探索后压缩”的认知过程显式地嵌入到 RLVR 的奖励设计中，解决了探索与利用（Exploration vs. Exploitation）在训练过程中的动态平衡问题。
设计了基于能力的动态奖励塑形： 提出了一种无需额外计算开销的奖励函数，能够根据模型当前的解题能力自动调整对推理长度的激励方向（困难时鼓励长思考，熟练时鼓励短思考）。
实现了无需额外开销的集成： 该方法完全兼容现有的 GRPO 等 RLVR 流程，无需改变训练架构或引入推理时的搜索算法（如 Tree of Thoughts），即可显著提升性能。
理论分析与实证验证： 从理论上证明了该方法能诱导双模态策略（对已知知识高效执行，对未知领域深度探索），并在多个数学基准上验证了其有效性。

4. 实验结果 (Results)

实验在 Qwen 系列（1.5B, 3B, 4B, 14B）和 DeepSeek 系列模型上，针对 MATH-500, AIME, AMC 等数学推理基准进行了评估。

性能提升：
- T2T 在大多数模型规模上显著优于标准 GRPO 及其他基线（LASER, W-REINFORCE, EntroPIC）。
- 在 Qwen3-14B 上表现尤为突出，Pass@1 和 Pass@64 均达到最佳，例如在 AIME'24 上 Pass@1 达到 39.6%（基线 GRPO 为 29.1%）。
- 在 Qwen2.5-3B 和 Qwen3-4B 上也取得了稳定的提升，特别是在 AMC'23 和 AIME 等高难度基准上。
训练动态分析：
- 熵的演化： T2T 在训练过程中维持了更高的策略熵（Policy Entropy），避免了标准 GRPO 常见的熵崩溃现象，表明模型保持了更强的探索能力。
- 长度调节： 实验观察到明显的双模态行为：随着训练进行，正确回答的长度逐渐缩短（变薄），而错误回答的长度逐渐增加（增厚），完美契合设计初衷。
小模型局限性： 在 1.5B 极小模型上，T2T 提升有限甚至略有下降，归因于小模型难以维持 T2T 所需的复杂长链推理，容易陷入重复循环。

5. 意义与影响 (Significance)

重新定义 RLVR 的优化目标： 指出传统的二值奖励忽略了推理过程的“质量”与“效率”的动态变化。T2T 提供了一种更精细的优化视角，将计算预算（Compute Budget）动态分配给不同难度的问题。
连接测试时扩展（Test-Time Scaling）与训练： 现有的测试时扩展（如增加采样次数或推理步数）往往成本高昂。T2T 将这种“扩展搜索”的能力内化到策略训练中，使模型在推理时能自动根据问题难度调整思考深度，实现了“训练时摊销推理成本”。
通用性与可扩展性： 作为一种轻量级的奖励设计，T2T 可以无缝集成到任何基于 RLVR 的框架中，为提升大模型在逻辑推理、代码生成等可验证领域的表现提供了新的、低成本的改进方向。
认知科学启示： 该工作证明了模仿人类“由博返约”的学习策略能有效提升机器智能，为未来设计更符合认知规律的 AI 训练算法提供了重要参考。

总结： T2T 通过模拟人类“先厚后薄”的学习过程，巧妙地解决了 RLVR 中探索不足与冗余过长的矛盾，在不增加额外计算成本的前提下，显著提升了大语言模型在复杂推理任务上的性能与效率。

Thickening-to-Thinning: Reward Shaping via Human-Inspired Learning Dynamics for LLM Reasoning