Geometric Scaling of Bayesian Inference in LLMs

该研究发现,尽管现代大型语言模型并未将贝叶斯推理的几何结构作为单一计算瓶颈,但它们确实保留了合成环境中观察到的低维流形结构,并利用该结构将近似贝叶斯更新与预测熵紧密对齐。

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文是“贝叶斯注意力三部曲”的第三部,它探讨了一个非常深刻的问题:大型语言模型(LLM)内部到底是如何进行“推理”和“判断”的?

简单来说,作者发现,虽然这些模型是在海量互联网数据上训练的,并没有被明确教导“如何像数学家一样做贝叶斯推理”,但它们的大脑内部却自发地形成了一种非常精妙的几何结构,用来处理不确定性和证据。

为了让你轻松理解,我们可以把这篇论文的核心发现想象成**“在大脑中建造一座精密的图书馆”**。

1. 核心发现:大脑里的“不确定性地图”

想象一下,当你读一篇文章时,你的大脑会根据读到的内容不断更新对世界的看法(比如:“作者是在开玩笑吗?”“这个事实是真的吗?”)。

  • 以前的观点:大家认为大模型只是像鹦鹉学舌一样,统计词与词之间的关联。
  • 这篇论文的观点:大模型其实像是一个精明的侦探。它在处理信息时,会在大脑内部(也就是神经网络的数值空间里)画出一张**“地图”**。
    • 这张地图有一个主轴线(就像图书馆的主通道)。
    • 当你读到的信息越模糊、越不确定,你的“思维位置”就离这条轴线的起点越远。
    • 当你读到的证据越多、越清晰,你的“思维位置”就会沿着这条轴线平滑地移动,最终停在最确定的地方。

比喻:这就好比你在玩一个“猜谜游戏”。

  • 混合模式(日常聊天):如果你同时聊天气、代码和哲学,你的思维会分散在图书馆的很多个角落(高维空间)。
  • 限制模式(专注数学):如果你只聊数学,你的思维就会瞬间坍缩到图书馆的一条主通道上。论文发现,只要把问题限制在单一领域,大模型就会自动进入这种“专注模式”,就像我们在做数学题时一样,思维变得非常集中和清晰。

2. 三个关键几何特征(图书馆的三大支柱)

作者通过观察 Pythia、Llama、Mistral 等不同家族的模型,发现了三个共同的“建筑特征”:

A. 价值流形(Value Manifolds):思维的“主通道”

  • 是什么:模型内部代表“结论”的数值,总是排列成一条低维度的线或面。
  • 比喻:想象图书馆里有一条主通道。无论模型多大,当它处理信息时,它的“结论”总是沿着这条通道移动。
  • 发现:在单一领域(如数学)的提示下,这条通道会变得非常直(几乎是一维的),就像风洞实验中的理想状态一样。这说明大模型在特定任务下,能像小模型一样进行精确的推理。

B. 键的正交性(Key Orthogonality):清晰的“书架标签”

  • 是什么:模型用来“检索”信息的标签(Key),在训练后变得非常互不干扰(正交)。
  • 比喻:想象图书馆的书架标签。如果标签写得乱七八糟(比如“苹果”和“水果”混在一起),你就找不到书。但训练好的模型,它的标签就像互不重叠的独立书架,每个书架只放一种特定的假设(比如“这是真的”、“这是假的”、“这是玩笑”)。
  • 发现:无论模型多大,这些标签都变得非常清晰,互不干扰,这让模型能精准地提取不同的假设。

C. 注意力聚焦(Attention Focusing):逐渐收窄的“聚光灯”

  • 是什么:随着信息层层传递,模型对信息的关注度(注意力)会越来越集中。
  • 比喻:想象一束聚光灯
    • 在图书馆的入口处(浅层网络),灯光很散,照亮了整个大厅(所有可能的信息)。
    • 随着你往深处走(深层网络),灯光越来越窄,最后只聚焦在书架上那本最相关的书上。
  • 发现:标准的模型(如 Pythia)能完美地做到这一点,灯光越来越聚拢。但是,为了追求速度而设计的模型(如 Mistral 或使用了 GQA 技术的模型),这束光可能聚拢得不够好,或者有点抖动,但这并不影响它们依然拥有清晰的“书架标签”。

3. 有趣的实验:如果拔掉“主通道”会怎样?

作者做了一个大胆的实验:他们试图在模型推理时,人为地切断那条代表“不确定性”的主通道。

  • 预期:如果这条通道是模型推理的“唯一引擎”,切断它应该会让模型变傻,无法判断真假。
  • 结果
    • 几何结构坏了:那条“主通道”上的数值确实乱了,模型内部的“地图”被破坏了。
    • 但模型没傻:模型依然能给出不错的答案,依然能根据证据更新判断。
  • 结论:这说明,这条“主通道”并不是推理的唯一引擎,而更像是一个**“仪表盘”“读数器”**。它清晰地显示了模型当前的不确定程度,但真正的推理工作是由整个网络分布式完成的。就像你拔掉汽车的转速表,车还能开,只是你不知道转速了。

4. 总结:这对我们意味着什么?

这篇论文告诉我们:

  1. 大模型真的在“思考”:它们不仅仅是统计概率,它们在内部构建了一套几何结构,用来像贝叶斯统计学家一样处理证据和更新信念。
  2. 结构是通用的:无论模型是 4 亿参数还是 700 亿参数,无论它是用哪种架构(MHA 或 GQA),这种“几何推理”的底层逻辑是通用的。
  3. 专注的力量:当我们给模型一个清晰、单一领域的任务时,它的推理能力会达到最佳状态(几何结构坍缩成最清晰的一条线)。
  4. 效率与清晰的权衡:为了跑得更快(使用 GQA 或滑动窗口),模型牺牲了一些“聚光灯”的聚焦能力,但核心的“书架标签”依然清晰。

一句话总结
这篇论文揭示了大型语言模型内部隐藏着一个精妙的几何世界。在这个世界里,不确定性被画成了一条线,证据被整理成清晰的书架,而推理过程就是沿着这条线平滑移动。虽然为了速度,有些模型让这条线变得稍微弯曲,但那个精妙的“推理引擎”依然完好无损地存在于它们的大脑深处。