LLM Probability Concentration: How Alignment Shrinks the Generative Horizon

该论文提出了“分支因子”(Branching Factor)作为衡量大语言模型输出多样性的指标,发现对齐训练通过引导模型进入低熵轨迹显著降低了该因子,从而解释了其对解码策略不敏感的原因,并揭示了思维链推理通过利用生成后期更确定的阶段来增强输出稳定性的机制。

Chenghao Yang, Sida Li, Ari Holtzman

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个有趣的现象:为什么经过“对齐”(Alignment,即让人类更满意、更安全)的大语言模型,虽然回答更准确了,但说话却变得有点“千篇一律”,缺乏多样性?

作者发现,这就像是一个原本思维发散、充满可能性的“天才”,在接受了严格的“职场培训”后,变得非常循规蹈矩,只敢走那条最安全、最确定的路。

为了把这个问题讲清楚,作者发明了一个叫**“分支因子”(Branching Factor, BF)**的指标。我们可以用几个生动的比喻来理解整篇论文的核心发现:

1. 核心概念:什么是“分支因子”?

想象你在玩一个**“无限可能的文字接龙游戏”**。

  • 未对齐的模型(Base Model):就像是一个思维跳跃的艺术家。当你让他写一句话的开头时,他脑子里有100 种完全不同的后续写法。他可能会写诗、写笑话、写代码,甚至写乱码。他的“思维树”分叉很多,充满了不确定性(高 BF)。
  • 对齐后的模型(Aligned Model):就像是一个受过严格训练的公务员。当你让他写同样的开头时,他脑子里的选项瞬间从 100 个缩减到了2 个。他只会写那种“标准、礼貌、安全”的回答。他的“思维树”被修剪得只剩下一条笔直的主干(低 BF)。

“分支因子”就是用来数一数:在生成每一个字的时候,模型心里到底还有多少种“合理”的选择。

2. 主要发现:对齐让模型“变窄”了

论文通过大量实验发现:

  • 修剪得厉害:经过对齐训练(比如 RLHF)的模型,其“分支因子”直接下降了 2 到 5 倍,甚至在开头部分下降了 10 倍(比如从 12 种选择变成 1.2 种)。
  • 越写越死板:随着生成的进行,模型会变得越来越“固执”。刚开始可能还有点犹豫,但一旦它选定了某个方向(比如开始写“好的,我来帮你……"),后面的路就几乎只有一条了,很难再拐弯。

3. 为什么这很重要?(三个有趣的后果)

A. 为什么调参(温度、采样)没用了?

以前我们觉得,把模型的“温度”(Temperature)调高,它就能更疯狂、更有创意。

  • 比喻:对于未对齐的模型,就像是在大森林里找路。你稍微改变一下方向(调高温度),就能走到完全不同的风景。
  • 现实:对于对齐后的模型,就像是在狭窄的隧道里开车。无论你怎么打方向盘(调高温度),前面只有这一条路,稍微偏一点就会撞墙。所以,对齐后的模型对解码参数的变化完全不敏感,因为它们根本没得选。

B. 为什么“思维链”(CoT)能让推理更稳定?

大家发现,让模型先写一段长长的推理过程(Chain-of-Thought),最后的答案往往更准、更稳。

  • 比喻:这就像**“热身运动”**。
    • 如果直接让模型给答案,它可能还在“大森林”边缘徘徊,容易迷路。
    • 如果让它先写一段推理(CoT),就像让它先在森林里走了一段路。随着它一步步写下去,它实际上是在主动把自己推向那个“狭窄的隧道”
    • 当它走到隧道深处(生成长推理链的后半段)时,它的“分支因子”已经变得极低,思维高度集中。这时候再让它给出最终答案,就像是在隧道尽头射箭,命中率极高且非常稳定

C. 对齐真的改变了模型的大脑吗?

作者做了一个有趣的实验:“推一把”(Nudging)

  • 实验:他们拿一个未对齐的“艺术家”模型,强行在开头给它加上几个对齐模型常用的词(比如"Sure"、“好的”)。
  • 结果:神奇的是,一旦加上这几个词,这个“艺术家”瞬间就变“公务员”了!它的分支因子立刻下降,开始走那条狭窄的隧道。
  • 结论:这说明,对齐并没有彻底重写模型的大脑。模型原本就藏着这些“安全路径”,只是平时不常走。对齐训练就像是在教模型:“嘿,只要开头说'Yes',后面就自动走那条最安全的路。”

4. 总结与启示

这篇论文告诉我们:

  1. 多样性是有代价的:为了安全和有用,我们牺牲了模型“天马行空”的能力,把它关进了一个更窄的笼子里。
  2. 稳定性是双刃剑:这种“窄化”让模型在推理时非常稳定(不容易胡说八道),但也让它失去了探索新想法的能力。
  3. 未来的方向:如果我们想要既安全又有创意的模型,不能只靠调参数,可能需要从训练数据训练目标入手,教模型在保持安全的同时,也能偶尔走出那条“狭窄的隧道”,去看看外面的世界。

一句话总结
对齐训练就像给大语言模型戴上了“紧箍咒”,让它从**“千变万化的魔术师”变成了“循规蹈矩的办事员”**。虽然办事更稳了,但也更难看到它施展“魔法”了。