Thickening-to-Thinning: Reward Shaping via Human-Inspired Learning Dynamics for LLM Reasoning

该论文提出了受人类学习过程启发的 T2T(由厚变薄)动态奖励框架,通过在不正确尝试时鼓励“增厚”以扩展搜索空间、在正确后转为“变薄”以抑制冗余,有效解决了强化学习中的熵崩溃与过度冗长问题,显著提升了大语言模型在数学推理任务上的性能。

Wenze Lin, Zhen Yang, Xitai Jiang, Pony Ma, Gao Huang

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 T2T (Thickening-to-Thinning,即“由厚变薄”) 的新方法,用来教大型人工智能(LLM)如何更好地进行逻辑推理和解题。

为了让你轻松理解,我们可以把训练 AI 的过程想象成教一个学生做数学题

1. 现在的痛点:要么太啰嗦,要么太急躁

目前的 AI 训练方法(叫 RLVR)有点像这样:

  • 只要答案对,就给满分;只要答案错,就给零分。
  • 这导致 AI 很困惑:
    • 遇到难题时,它不敢多思考,怕想多了反而出错,或者因为太啰嗦被扣分。
    • 遇到简单题时,它又可能废话连篇,像是一个话痨,明明一句话能说清,非要写三页纸。
  • 结果:AI 要么在难题上“卡壳”(探索不够),要么在简单题上“注水”(效率太低)。

2. T2T 的核心灵感:华罗庚的读书法

作者从人类的学习智慧中找到了灵感,引用了数学家华罗庚的一句名言:“读书要由薄变厚,再由厚变薄。”

  • 由薄变厚(Thickening):刚开始学新知识或遇到难题时,我们要**“厚”。这意味着要广泛尝试、大胆猜测、甚至允许自己写很多废话和错误的尝试。这时候,“多写”是好事**,因为它能帮我们探索更多的可能性,找到解题的线索。
  • 由厚变薄(Thinning):一旦我们搞懂了,就要**“薄”。这时候要“精简”**,把废话去掉,只保留最核心的逻辑,形成简洁、高效的解题套路。

3. T2T 是怎么工作的?(给 AI 的“动态奖励”)

T2T 给 AI 设计了一套**“看人下菜碟”**的奖励机制,根据 AI 当前的表现动态调整规则:

第一阶段:遇到难题或做错了 -> 鼓励“变厚” (Thickening)

  • 场景:AI 尝试解题但失败了,或者这道题很难,它还没掌握。
  • 奖励规则:这时候,AI 写得越长、尝试得越多,奖励反而越高
  • 比喻:就像老师对学生说:“这道题很难,你虽然做错了,但你尝试了三种不同的方法,写了长长的推导过程,这种探索精神值得表扬!继续想,别怕啰嗦!”
  • 目的:强迫 AI 在困难问题上多花“脑力”,扩大搜索范围,直到找到正确答案。

第二阶段:做对了 -> 鼓励“变薄” (Thinning)

  • 场景:AI 终于做对了这道题,说明它已经掌握了。
  • 奖励规则:这时候,AI 写得越短、越精炼,奖励越高!如果它还在啰嗦,就要扣分。
  • 比喻:老师接着说:“好,你已经会做这道题了。现在我们要**‘去粗取精’**,把那些多余的废话删掉,用最简洁的语言把解题思路讲清楚,这样你以后解题才快!”
  • 目的:让 AI 把学到的知识“内化”成高效的技能,避免以后遇到简单题还啰里啰嗦。

4. 为什么要这么做?(像人类一样学习)

以前的训练方法像是一个**“死板的考官”**,不管你是刚开始学还是已经是大神,都用同一套标准(要么全对,要么全错)。

T2T 则像一位**“懂心理学的导师”**:

  • 在你迷茫时,它鼓励你**“多折腾”**(由薄变厚),帮你找到路。
  • 在你精通时,它督促你**“做减法”**(由厚变薄),帮你提升效率。

5. 实验结果怎么样?

作者在数学竞赛(如 AIME, AMC)和复杂的逻辑题上测试了这种方法。

  • 结果:使用 T2T 训练的 AI,在难题上表现更好(因为它敢探索了),在简单题上速度更快(因为它不啰嗦了)。
  • 对比:比传统的训练方法(GRPO)和其他改进方法都要强,而且不需要额外的硬件成本,只是改变了“打分规则”。

总结

这就好比教孩子骑自行车:

  • 刚开始(Thickening):你给他装两个辅助轮,让他多骑、多摔、多尝试,不要怕他骑得慢或姿势乱,重点是敢骑
  • 学会了(Thinning):一旦他稳了,你就把辅助轮拆了,要求他骑得又稳又快,不再允许他摇摇晃晃。

T2T 就是让 AI 学会这种“先大胆探索,后高效总结”的人类智慧,从而变得更聪明、更灵活。