Rewarding Doubt: A Reinforcement Learning Approach to Calibrated Confidence Expression of Large Language Models

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种让大型语言模型（LLM）学会“诚实表达自己有多确定”的新方法，作者将其命名为 “奖励怀疑” (Rewarding Doubt)。

为了让你轻松理解，我们可以把大语言模型想象成一个**“超级博学但有点爱吹牛的学霸”**。

1. 核心问题：学霸的“过度自信”

现在的 AI 模型就像那个学霸，回答问题非常流利，但有一个致命缺点：它太自信了，哪怕是在胡说八道（幻觉）的时候，它也敢拍着胸脯说“我 100% 确定”。

场景：你问它“法国的首都是哪里？”，它回答“巴黎，我 100% 确定”。（这是对的）
场景：你问它“法国的首都是哪里？”，它回答“里昂，我 100% 确定”。（这是错的，但它依然很自信）

这种“盲目自信”在医疗、法律等高风险领域非常危险。我们需要它学会：如果不确定，就老实说“我不太确定”；如果很确定，就大声说“我很有把握”。 这就是所谓的**“校准” (Calibration)**。

2. 旧方法的尴尬：像“事后诸葛亮”

以前的方法主要有两种：

直接问它：你问它“你有多确定？”，它可能会瞎编一个数字，因为它没受过专门训练。
外部打分：让另一个程序去分析它的回答，算出它有多少把握。但这就像让学霸在考试时，旁边站个老师帮他算分，学霸自己并没有学会如何评估自己。

3. 新方法的妙处：一场“下注游戏”

这篇论文提出了一种强化学习 (Reinforcement Learning) 的方法，把让模型学会“评估自信度”变成了一场**“下注游戏”**。

🎲 游戏规则（奖励机制）

想象模型是一个赌徒，它不仅要回答问题，还要下注（说出自信度，比如 0 到 10 分）：

规则一（答对且自信）：如果它答对了，而且它说“我很有把握（高分）”，奖励它！就像赌对了大彩票，奖金丰厚。
规则二（答错且自信）：如果它答错了，但它却信誓旦旦说“我很有把握（高分）”，重罚它！就像赌错了还梭哈，输得底裤都不剩。
规则三（答错且谦虚）：如果它答错了，但它说“我不太确定（低分）”，惩罚很小，甚至不罚。就像承认自己没看准，虽然输了但没输太多。
规则四（答对且谦虚）：如果它答对了，但它说“我不太确定（低分）”，奖励很少。就像中了大奖却只敢下注一块钱，虽然没亏，但没赚够。

🎯 目标：学会“看人下菜碟”

在这个游戏里，模型为了拿到最高的总奖励，必须学会**“什么时候该自信，什么时候该怀疑”**。

如果它真的知道答案，它必须敢于下大注（高自信）。
如果它只是在瞎猜，它必须学会“认怂”（低自信），避免因为盲目自信而被重罚。

这就好比教一个学生：“只有当你真的懂的时候，才敢大声喊‘我确定’；如果你不懂，就老实说‘我不确定’，这样虽然没奖，但也不会被骂。”

4. 实验结果：学霸变“诚实”了

作者用这个“下注游戏”训练了模型，结果非常惊人：

不再盲目自信：模型不再动不动就喊"100% 确定”。遇到难题时，它会主动降低自信度，表现出“怀疑”。
更懂行：当它说“我有 90% 把握”时，它真的就有 90% 的概率是对的。这种**“言行一致”**的能力就是所谓的“校准”。
举一反三：即使是用在没见过的题目（比如从常识题转到医疗题），模型依然能保持这种“诚实”的习惯，不需要重新训练。
不耽误正事：最重要的是，这种训练没有降低它回答问题的准确率。它只是学会了更诚实地表达自己，而不是把答案改错了。

5. 总结：为什么这很重要？

这就好比给 AI 装上了一套**“诚实的良心”**。

以前：AI 像个不知天高地厚的骗子，不管知不知道，都敢拍胸脯保证。
现在：AI 像个成熟的专家，知道什么该说“我确定”，什么该说“我得查查资料”或“我不确定”。

这种方法不需要人类去一个个标注数据，也不需要额外的复杂程序，而是通过一种数学上的“奖惩机制”，让 AI 自己悟出了**“怀疑的价值”**。这对于让 AI 安全地进入医院、法庭等关键领域，具有非常重要的意义。

一句话总结：这篇论文教 AI 学会了**“知之为知之，不知为不知”**，让它从“盲目自信的学霸”变成了“诚实可靠的专家”。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于大语言模型（LLM）置信度校准的会议论文，发表于 ICLR 2026。以下是该论文《REWARDING DOUBT: A REINFORCEMENT LEARNING APPROACH TO CALIBRATED CONFIDENCE EXPRESSION OF LARGE LANGUAGE MODELS》（奖励怀疑：一种用于大语言模型校准置信度表达的强化学习方法）的详细技术总结。

1. 研究背景与问题 (Problem)

核心痛点：大语言模型（LLM）在现实世界应用（如医疗诊断、法律咨询）中面临“幻觉”问题，即生成不准确信息却表现出极高的置信度。这种过度自信（Overconfidence）可能导致严重后果。
现有局限：
- 零样本方法（Zero-shot）：如通过提示词让模型“说出”置信度，或基于内部状态（如 Logits、熵）推断置信度。这些方法通常缺乏校准性（Calibration），即模型表达的置信度数值与其实际准确率不匹配。
- 解耦方法：现有的微调方法通常将“置信度估计”与“文本生成”解耦（例如先估计置信度，再作为监督信号微调）。这导致模型缺乏内在的“不确定性意识”，且依赖外部估计机制的质量。
- 强化学习（RL）：之前的 RL 方法多依赖人类反馈（RLHF）或奖励模型，往往偏向于奖励高置信度的回答，或者需要昂贵的人工标注数据，未能直接针对事实准确性进行校准。
目标：开发一种方法，使 LLM 能够在生成答案的同时，直接微调出经过校准的置信度表达，即模型表达的置信度 $P$ 应等于其回答正确的真实概率 $p^*$ 。

2. 方法论 (Methodology)

作者提出了一种名为 Rewarding Doubt 的新颖强化学习（RL）框架，将置信度估计建模为一个博弈过程（Betting Game）。

2.1 核心思想

博弈视角：高置信度意味着下大注（高风险高回报），低置信度意味着下小注（低风险低回报）。
奖励设计：使用对数评分规则（Logarithmic Scoring Rule）作为奖励函数。这是一种严格 Proper Scoring Rule（严格恰当评分规则），其数学性质保证了当预测概率等于真实概率时，期望奖励最大化。

2.2 奖励函数设计

模型被要求输出答案 $a$ 和置信度 $\hat{p}$ （0 到 1 之间）。设 $j(a)$ 为答案正确性判断函数（1 为正确，0 为错误）。奖励函数 $R$ 定义如下：

$R(a, \hat{p}, j) = \begin{cases} \log(\hat{p}) & \text{if } j(a) = 1 \text{ (正确)} \\ \log(1 - \hat{p}) & \text{if } j(a) = 0 \text{ (错误)} \end{cases}$

机制分析：
- 如果答案正确且置信度高（ $\hat{p} \to 1$ ）， $\log(\hat{p})$ 接近 0（负值较小），获得高奖励。
- 如果答案错误但置信度高（ $\hat{p} \to 1$ ）， $\log(1 - \hat{p})$ 趋向负无穷，受到严厉惩罚。
- 如果答案正确但置信度低（ $\hat{p} \to 0$ ）， $\log(\hat{p})$ 趋向负无穷，受到惩罚。
- 结论：为了最大化期望奖励，模型必须学习将 $\hat{p}$ 调整至与真实正确概率 $p^*$ 一致。这迫使模型在不确定时表达低置信度，在确定时表达高置信度。

2.3 训练流程

**马尔可夫决策过程 **(MDP)：
- 状态：问题 $q$ 、已生成的答案 $a$ 、已生成的置信度 token 序列。
- 动作：生成下一个置信度 token。
- 奖励：基于最终生成的置信度 $\hat{p}$ 和答案正确性计算。
解耦生成：训练分为两步。首先生成答案（固定），然后基于该答案生成置信度。这确保了置信度校准训练不会破坏模型原有的任务回答能力。
优化算法：使用 **PPO **(Proximal Policy Optimization) 算法进行策略优化。
数值稳定性：引入小常数 $\epsilon$ 对置信度进行截断（Clipping），避免 $\log(0)$ 未定义的问题。

3. 关键贡献 (Key Contributions)

理论创新：首次将对数评分规则直接作为强化学习的奖励信号，用于端到端地微调 LLM 的置信度表达。从理论上证明了在该奖励下，最优策略对应于完美校准的模型。
无缝集成：不同于以往将置信度估计与生成解耦的方法，该方法将校准过程无缝集成到 LLM 的生成过程中，使模型具备内在的不确定性意识。
无需外部依赖：不需要训练额外的奖励模型（Reward Model）、不需要人类偏好数据、不需要外部探针（Probes）或后处理校准技术。
通用性与效率：方法通用，适用于不同架构和规模的模型；推理阶段仅需生成少量 token，计算开销远低于 Chain-of-Thought 或 Self-Consistency 等零样本方法。

4. 实验结果 (Results)

实验在单答案（Single-Answer, TriviaQA）和多答案（Multiple-Answer, QAMPARI）设置下进行，并测试了跨域泛化能力。

**校准性能 **(Calibration)：
- **ECE **(Expected Calibration Error)：在 TriviaQA 上，Rewarding Doubt 的 ECE 降至 0.0226，显著优于零样本基线（0.3459）和 LACIE (0.1200)，与监督微调的 Trained Probe (0.0189) 相当。
- AUROC：在 TriviaQA 上达到 0.8592，优于所有基线，表明模型能更好地区分正确和错误的回答。
- 校准曲线：微调后的模型置信度分布更接近理想的 45 度线，且消除了零样本模型普遍存在的“过度自信”（集中在 8-10 分）现象，置信度分布更加均匀和细腻。
**任务准确性 **(Accuracy)：
- 在微调过程中，模型的回答准确率（Accuracy）保持稳定，未因置信度训练而下降。
**泛化能力 **(Generalization)：
- 跨数据集：在 TriviaQA 上训练的模型，直接应用于 CommonsenseQA 和 MedQA（未见过的领域），依然表现出显著的校准提升（MedQA 上 ECE 从 0.448 降至 0.1145）。
- 跨任务：单答案训练的模型在多答案任务上也能表现优于基线，证明了置信度估计模式的迁移性。
- 跨模型：在 LLaMA-3.1, Qwen-2.5, Gemma-2 等不同架构和参数规模（3B-9B）的模型上均有效。
对比基线：全面优于 Chain-of-Thought, Top-K, Self-Consistency, LACIE (DPO-based), Trained Probe 等方法。

5. 意义与影响 (Significance)

提升 AI 可信度：通过让模型准确表达“怀疑”（Doubt），使人类用户能更可靠地判断何时信任 AI，何时寻求人工复核，特别是在高风险领域（医疗、法律）。
人机协作新范式：为构建更安全、更负责任的 AI 系统奠定了基础，使 AI 能够透明地沟通其不确定性。
实用价值：提供了一种高效、无需额外推理开销的校准方案，适合大规模实际部署。
理论验证：验证了通过强化学习直接优化严格恰当评分规则，可以赋予 LLM 内在的概率校准能力，而不仅仅是模仿外部标签。

总结：Rewarding Doubt 通过巧妙的奖励函数设计，成功地将“校准”这一统计目标转化为 LLM 的生成策略，解决了当前 LLM 过度自信且缺乏内在不确定性意识的关键问题，为构建可信赖的 AI 系统提供了强有力的技术路径。