PonderLM-2: Pretraining LLM with Latent Thoughts in Continuous Space

该论文提出了一种名为 PonderLM-2 的新型预训练方法,通过在连续空间中为每个生成 token 引入额外的“潜在思维”步骤,使模型在推理成本不变的情况下,性能显著超越参数量翻倍的标准模型。

Boyi Zeng, He Li, Shixiang Song, Yixuan Wang, Zitong Wang, Ziwei He, Xinbing Wang, Zhouhan Lin

发布于 Tue, 10 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 PonderLM-2 的新方法,它的核心思想非常有趣:让大语言模型在“说话”之前,先学会“思考”

为了让你更容易理解,我们可以把大语言模型想象成一个正在写作的作家,而传统的模型和 PonderLM-2 的区别就在于他们写作的习惯不同。

1. 传统模型:急脾气的作家

想象一下,传统的语言模型(比如普通的 Pythia 或 LLaMA)是一个急脾气的作家

  • 工作方式:你给他一个开头,他立刻就要写出下一个字。
  • 过程:看到“今天天气”,他脑子里刚闪过“很好”这个词,手就立刻把“很好”写出来了。
  • 缺点:因为太急,他往往没有深思熟虑,容易写错,或者写出的内容比较浅显。如果想让他变聪明,唯一的办法就是雇佣更多的作家(增加模型参数量)或者让他读更多的书(增加训练数据),但这非常烧钱且效率在降低。

2. PonderLM-2:深思熟虑的“内心独白”

PonderLM-2 则是一个懂得“内心独白”的作家

  • 工作方式:当你要他写下一个字时,他不会马上动笔。
  • 过程
    1. 他先在脑子里构建一个“隐形的草稿”(这就是论文里说的“潜在思维”,Latent Thought)。这个草稿不是写出来的字,而是他大脑深处的一种思维状态(连续空间中的隐藏状态)。
    2. 他在这个“隐形草稿”里反复推敲、自我修正。
    3. 等他在脑子里想清楚了,才把这个最终确定的字写出来。
  • 比喻:就像你在做一道数学题,传统模型是直接猜答案;而 PonderLM-2 是先在心里列个算式、验算一遍,确认无误后再把答案写下来。

3. 核心创新:如何“边想边写”?

你可能会问:“让他先在脑子里想,那速度岂不是变慢了?而且怎么训练他这种‘想’的能力呢?”

论文提出了两个巧妙的解决办法:

A. 训练时的“平行宇宙”魔法(雅可比迭代)

在训练阶段,如果让模型一个字一个字地“想”,速度会慢到无法接受。

  • 比喻:想象你要教一个学生做 100 道题。传统方法是让他做完第 1 题,再想第 2 题……直到第 100 题。
  • PonderLM-2 的做法:它使用了一种叫雅可比迭代(Jacobi Iteration) 的数学技巧。这就像是在平行宇宙里同时训练。它让模型在几秒钟内,在脑子里快速模拟“思考 - 修正 - 再思考”的循环好几遍,然后一次性把结果算出来。
  • 结果:虽然模型在脑子里多转了几圈,但训练速度并没有慢多少,而且它真的学会了“思考”的本领。

B. 推理时的“隐形草稿”

在真正使用模型时(比如你问它问题):

  • 它依然会先产生一个“隐形草稿”(隐藏状态)。
  • 这个草稿不会显示给用户,用户看到的依然是流畅的文字。
  • 但是,因为模型在生成每个字之前都多花了一点“脑力”去打磨这个草稿,所以它写出来的字更准确、逻辑更强。

4. 为什么它这么厉害?(实验结果)

论文通过大量实验证明了这种方法的强大:

  • 小模型打败大模型
    • 一个1.4B(14 亿参数)的 PonderLM-2 模型,在同样的计算成本下,表现竟然超过了2.8B(28 亿参数)的传统大模型。
    • 比喻:这就像是一个经过严格思维训练的 14 岁天才少年,在解题能力上打败了一个没有经过思维训练、只是死记硬背的 28 岁普通人
  • 省资源
    • 它只需要用传统模型62% 的训练数据,就能达到同样的效果。这意味着它更“聪明”,不需要读那么多书就能学会。
  • 越思考越聪明
    • 如果你让它在写每个字之前,先在脑子里“想”两次(而不是只“想”一次),它的表现会更好。这就像我们人类,多思考一会儿,答案往往更靠谱。

5. 总结:这意味什么?

以前,我们想让 AI 变聪明,只能靠堆硬件(买更多显卡)和堆数据(找更多书)。这就像想让人变聪明,只能让他吃更多饭、长更大块头。

PonderLM-2 告诉我们:改变“思考的方式”比单纯“长肉”更重要
它教会了 AI 在输出答案前,先在连续的思维空间里进行自我反思和修正。这种“慢思考”的能力,让 AI 在不需要增加太多算力的情况下,变得更强、更准、更聪明。

一句话总结
PonderLM-2 给语言模型装了一个“大脑缓冲区”,让它学会三思而后言,从而用更小的身材(参数),干出了更大的活(性能)。