Eliciting Numerical Predictive Distributions of LLMs Without Autoregression

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常有趣的问题：我们能不能不用“慢吞吞”的方式，直接从大语言模型（LLM）的“大脑”里读出它想预测的下一个数字，甚至还能知道它有多“拿不准”？

为了让你轻松理解，我们可以把大语言模型想象成一个正在写小说的超级天才作家。

1. 现在的困境：作家必须“一个字一个字”地写

通常，当我们要让这位作家预测下一个数字（比如明天的气温是 23.5 度）时，他必须像写小说一样，一个字符一个字符地生成：先写"2"，再写"3"，再写"."，最后写"5"。

问题所在：
- 太慢了：如果我们需要预测 100 次来算出“平均气温”或者“气温波动范围”（不确定性），作家就得重复写 100 遍，累得半死，耗时耗力。
- 浪费：其实，作家在动笔写第一个字"2"之前，他的脑海里可能已经对整个数字（23.5）有了完整的构思。但他被规则束缚，必须按顺序吐出来。

2. 论文的核心发现：直接“读心”

作者们想：“既然作家在动笔前脑子里已经有了答案，我们能不能跳过写作过程，直接读取他脑子里的构思？”

他们发明了一种叫做**“探针”（Probe）的小工具。这就好比给作家戴上了一个“读心耳机”**。

怎么做？
- 他们不给作家写数字的机会，而是直接观察作家在输入数据（比如过去几天的气温）后，大脑内部神经元的活动状态（也就是“隐藏层状态”）。
- 他们训练了一个小模型（探针），专门负责“翻译”这些神经元活动，直接猜出作家想说的数字是多少。

3. 关键创新：把数字拆成“量级”和“数值”

直接猜数字很难，因为数字大小差异巨大（可能是 0.001，也可能是 10000）。这就像让一个人同时猜“大象有多重”和“蚂蚁有多重”，很难用一个尺子量。

作者想出了一个聪明的**“分步走”策略**（就像拆礼物）：

第一步：猜量级（Magnitude）。先问探针：“这个数大概是多大？是个位数？还是千位数？”（就像先猜礼物是在小盒子里还是大箱子里）。
第二步：猜具体数值（Value）。在确定了量级后，再猜具体的数字是多少（就像打开盒子看里面具体是什么）。

这种方法让探针能轻松应对各种大小的数字，非常精准。

4. 惊人的结果：不仅知道“是多少”，还知道“有多准”

论文不仅证明了探针能猜出数字（比如平均气温），还发现了一个更酷的事实：

捕捉“不确定性”：
通常，要想知道作家对预测有多“没底”，需要让他多写几遍，看看结果波动大不大。
但作者发现，作家脑子里的神经元活动本身就包含了“波动信息”。探针不仅能猜出“明天可能是 23.5 度”，还能直接读出“作家觉得明天可能在 22 到 25 度之间波动”。
- 比喻：就像你不用让作家写十遍故事来猜他是不是在瞎编，直接看他的眼神（神经元活动），就能知道他是胸有成竹还是心里发虚。

5. 实际意义：从“慢工出细活”到“秒回”

以前：为了得到一个带不确定性的预测，需要让大模型跑几十次，像让厨师做 100 次菜来尝味道，费时费力。
现在：用这个“探针”，只需要让大模型看一次输入，探针就能在几毫秒内直接给出预测值和波动范围。
- 效率提升：速度提升了数十倍，计算成本大幅降低。
- 通用性：即使面对没见过的数据长度或真实世界的数据（如股票、天气），探针也能表现得相当不错。

总结

这篇论文就像发现了一个**“作弊码”：我们不需要让大语言模型笨拙地“打字”来输出数字，而是可以直接“读取”它大脑中已经形成的数字概念**。

这不仅让我们明白了大模型是如何处理数字的（原来它在“思考”阶段就已经算好了），更为未来在医疗、金融等需要快速且知道风险的场景中使用大模型，提供了一条轻量级、高效率的新路径。

一句话概括：以前我们逼着大模型“慢慢写”数字，现在我们学会了直接“读”它脑子里的数字，既快又准，还能知道它心里有没有底。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的论文，题为《ELICITING NUMERICAL PREDICTIVE DISTRIBUTIONS OF LLMS WITHOUT AUTOREGRESSION》（无需自回归即可提取大语言模型的数值预测分布）。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

背景：大型语言模型（LLMs）凭借其上下文学习能力，在结构化数据预测（如时间序列预测、表格回归）中表现出色。
痛点：
- 自回归解码的低效性：LLM 生成连续数值通常需要多个 Token（例如逐位生成数字），这导致单次预测需要多次前向传播。
- 不确定性量化的成本：为了获得预测分布（如均值、中位数、置信区间）或量化不确定性，传统方法需要进行多次采样（Sampling）。对于需要大量采样的任务，计算成本和推理时间极高。
- 核心问题：是否存在一种方法，无需进行昂贵的自回归数值生成和重复采样，就能从 LLM 的内部表示中提取其数值预测分布及其不确定性？

2. 方法论 (Methodology)

作者提出了一种基于探针（Probing）的方法，直接从 LLM 的内部隐藏状态（Hidden States）中回归统计量，从而绕过自回归解码过程。

2.1 核心架构：幅度分解探针 (Magnitude-Factorised Probing Model)

为了解决数值目标跨度大（数量级差异巨大）导致的训练不稳定问题，作者设计了一种将预测任务分解为两个阶段的模型：

幅度分类器 (Magnitude Classifier)：
- 输入：LLM 的隐藏状态嵌入。
- 输出：目标数值的数量级（Order of Magnitude，即 $10^k$ 中的 $k$ ）的概率分布。
- 作用：确定预测值的粗略范围。
尺度不变回归器 (Scale-Invariant Value Regressor)：
- 输入：LLM 的隐藏状态 + 预测的数量级因子。
- 输出：缩放后的目标值（即去除了数量级影响后的数值）。
- 作用：在确定的数量级下，精确预测数值。

2.2 具体任务实现

点预测 (Point Estimates)：
- 训练独立的探针分别预测 LLM 预测分布的贪婪输出 (Greedy)、均值 (Mean) 和 中位数 (Median)。
- 使用两阶段训练策略：先训练分类头（冻结回归头），再训练回归头（冻结分类头）。
不确定性量化 (Uncertainty Quantification)：
- 使用分位数回归 (Quantile Regression) 结合 Pinball Loss。
- 训练探针预测多个分位数（如 0.025, 0.05, ..., 0.975），从而重构预测分布的形状并计算置信区间。
- 同样采用幅度分解策略来处理不同数量级的分位数。

2.3 数据与实验设置

模型：主要使用 Llama-2-7B（其分词器将每个数字单独编码，增加了自回归生成的难度，从而更能验证探针的有效性），同时也测试了 Llama-3、Phi-3.5 和 DeepSeek-R1。
数据：
- 合成数据：包含正弦波、高斯分布、随机噪声等多种动态的时间序列，覆盖不同的数值范围（ $[-1, 1]$ 到 $[-10000, 10000]$ ）。
- 真实数据：来自 Darts 和 Monash 时间序列库的真实数据集。
输入表示：提取 LLM 最后 8 层的最后一个 Token 的隐藏状态并拼接，作为探针的输入。

3. 主要发现与结果 (Key Results)

3.1 内部表示包含丰富信息

点预测精度：探针能够极其准确地从隐藏状态中恢复 LLM 的预测统计量。
- 在预测均值和中位数时，探针的均方误差 (MSE) 与直接从 LLM 采样得到的统计量几乎一致。
- 相关系数 (Pearson R) 高达 0.98（均值/中位数）和 0.90（贪婪输出）。
- 结论：LLM 在生成任何 Token 之前，其内部表示已经编码了它打算生成的完整数值信息（包括数量级和精细值）。

3.2 不确定性可被有效提取

分布形状恢复：探针能够准确预测预测分布的离散程度（如四分位距 IQR）。
置信区间校准：基于探针预测的分位数构建的置信区间（50%, 90%, 95%）具有极佳的校准度，其经验覆盖率与目标水平高度吻合。
结论：LLM 的不确定性信息也编码在内部激活中，无需通过采样来估计。

3.3 效率与成本优势

计算成本：
- 自回归生成一个 5 位数字的样本需要约 $70 \times 10^9$ FLOPS（对于 7B 模型）。
- 探针推理仅需约 $34 \times 10^6$ FLOPS（针对单个统计量）。
- 速度提升：探针的推理速度比生成单个 LLM 样本快约 47 倍。
样本效率：探针的预测误差优于使用 20-25 个 LLM 样本计算出的均值。

3.4 泛化能力

长度泛化：在未见过的上下文长度上，探针表现出一定的泛化能力，但在训练分布之外的长度上校准度略有下降。
跨域泛化：
- 在真实世界数据集上，探针表现良好。
- 在合成数据上训练的探针可以迁移到真实数据，尽管在分布差异较大时校准度会有所下降，但证明了 LLM 数值表示的通用性。

4. 关键贡献 (Key Contributions)

揭示 LLM 内部机制：首次证明 LLM 在自回归解码开始之前，其隐藏状态中已经编码了完整的数值预测分布信息（包括点估计和不确定性）。
提出高效探针架构：设计了“幅度分解”的探针模型，有效解决了数值回归中数量级跨度大导致的训练难题。
无需采样的不确定性量化：提供了一种轻量级、单次前向传播的方法来获取 LLM 的预测分布和置信区间，替代了昂贵的重复采样过程。
实证效率提升：展示了该方法在保持精度的同时，显著降低了推理时间和计算成本。

5. 意义与影响 (Significance)

理论意义：挑战了“必须通过自回归解码才能获取 LLM 数值输出”的假设，表明 LLM 的“推理”过程在很大程度上发生在输入处理阶段，解码仅仅是将内部表示“表面化”。
实际应用：
- 为需要实时性和低延迟的数值预测任务（如高频交易、实时控制）提供了可行的 LLM 部署方案。
- 使得在资源受限环境下进行**不确定性感知（Uncertainty-aware）**的决策成为可能，无需承担巨大的采样开销。
未来方向：推动了开发通用的、无需微调的探针模型，使其能直接应用于不同架构和领域的 LLM，以提取数值信息。

总结：这篇论文通过创新的探针技术，证明了从 LLM 内部直接“读取”数值预测分布的可行性，为高效、低成本且具备不确定性量化能力的 LLM 回归应用开辟了新路径。