Pretraining with Token-Level Adaptive Latent Chain-of-Thought

该论文提出了一种在预训练阶段通过自适应生成可变长度的潜在思维链来增加每 token 计算量的方法,该方法无需扩展参数量即可在降低训练和推理计算成本的同时,显著提升语言模型的困惑度及下游任务表现。

Boyi Zeng, Yiqin Hao, He Li, Shixiang Song, Feichen Song, Zitong Wang, Siyuan Huang, Yi Xu, ZiWei He, Xinbing Wang, Zhouhan Lin

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种让大语言模型(LLM)变得更聪明、更高效的新方法。我们可以把它想象成给模型装上了一套"智能思考引擎"。

为了让你更容易理解,我们把训练大模型的过程比作"教一个学生写作文"。

1. 现状:传统的“死记硬背”与“盲目刷题”

目前的大模型(比如 Llama)主要靠两件事变强:

  • 增加参数:把学生的“大脑容量”变大(增加神经元数量)。
  • 增加数据:让学生读更多的书(增加训练数据)。

问题在于

  • 好书(高质量数据)快被读完了。
  • 大脑太大,传输数据太慢,成本太高。
  • 现在的模型不管遇到多简单的问题(比如“今天天气不错”),还是多难的问题(比如“推导量子力学公式”),都用同样的力气去思考。这就好比让一个学生做"1+1"和“解微积分”时,都花同样的时间发呆,既浪费精力,又没效率。

2. 核心创新:让模型学会“看菜吃饭”

这篇论文提出的方法叫"自适应潜在思维链"(Adaptive Latent CoT)。

通俗解释
以前的模型在输出每一个字之前,要么不思考,要么思考固定的次数。
现在的模型学会了在输出每个字之前,先在心里进行“潜意识的思考”。而且,它非常聪明:

  • 遇到简单的字(比如“的”、“了”):它心里只转个念头,甚至直接跳过思考,马上输出。
  • 遇到难的字(比如复杂的逻辑词、生僻概念):它会在心里多转几圈,反复推敲,直到想清楚了再输出。

这就好比

  • 你走在熟悉的路上,看到红绿灯,大脑几乎不思考就踩刹车(简单 token,0 步思考)。
  • 你遇到一个复杂的数学题,你会在草稿纸上算好几步,甚至推翻重来,最后才写下答案(困难 token,多步思考)。

3. 技术亮点:如何做到“既快又省”?

论文里用了三个巧妙的“魔法”来实现这一点:

A. 并行思考(Parallel Masking):打破“排队”瓶颈

  • 旧方法:像排队一样,必须等第一个人想完,第二个人才能开始想。这太慢了。
  • 新方法:想象一个巨大的教室。老师(模型)同时给全班同学(所有字)出题。
    • 简单的同学(简单字)很快就算出答案,举手交卷。
    • 难的同学(难字)还在埋头苦算。
    • 老师不需要等所有人,而是同时处理所有人的进度。这样,虽然思考过程变深了,但速度并没有变慢。

B. 智能“喊停”机制(Probabilistic Halting):知道何时收手

  • 模型里有一个"裁判"(Router)。
  • 每当模型在心里想了一步,裁判就会看一眼:“这个字现在的概率够高了吗?如果已经很有把握了,就喊停,别再浪费脑细胞了。”
  • 如果还没把握,裁判就让它继续想下一步。
  • 关键点:这个裁判是模型自己学会的,不需要人类老师手把手教它什么时候停。

C. “ correctness-aware"损失函数:惩罚“过度思考”

  • 论文发现,如果一个字模型已经很有把握了(比如 99% 确定是“的”),这时候再让它想一步,不仅没用,反而可能把它想糊涂(概率变低)。
  • 所以,作者设计了一个惩罚机制:如果模型在已经很有把握的时候还非要继续思考,就要扣分
  • 这迫使模型学会**“见好就收”**,只在真正需要的时候才动脑筋。

4. 结果:更聪明,更省钱

实验结果显示,这种方法非常有效:

  • 更准:在同样的训练数据下,模型生成的文字更通顺,逻辑更严密(困惑度更低)。
  • 更省:因为它在简单问题上“偷懒”(少计算),在难问题上“努力”(多计算),所以总的计算量反而比那些死板的模型更少
  • 以小博大:一个只有 4 亿参数的模型,用了这个方法,效果竟然超过了那些 14 亿参数、但不会自适应思考的普通模型。

总结

这篇论文的核心思想就是:不要“一刀切”

以前的 AI 像是一个不知疲倦但不懂变通的机器人,不管任务难易,都使出全身力气。
现在的 AI 像是一个经验丰富的老手,遇到小事“秒回”,遇到大事“深思熟虑”。

它不需要更多的参数(大脑容量),也不需要更多的数据(书本),只需要学会如何分配自己的注意力,就能在有限的资源下,发挥出超常的智力。这就是“自适应潜在思维链”的魅力所在。