Think Through Uncertainty: Improving Long-Form Generation Factuality via Reasoning Calibration

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 CURE 的新方法，旨在解决大型语言模型（LLM）在写长文章时容易“一本正经地胡说八道”（即幻觉）的问题。

为了让你更容易理解，我们可以把语言模型想象成一个才华横溢但有点过于自信的导游。

🌟 核心问题：导游的“过度自信”

想象一下，你请这位导游带你游览一个陌生的城市（生成一篇长文章）。

以前的情况：导游非常自信地指着一座建筑说：“这是 19 世纪建的！”（其实那是 20 世纪的）。或者指着一条路说：“前面是公园！”（其实前面是悬崖）。
问题所在：即使导游说错了，他的语气依然非常笃定。用户很难分辨哪些是事实，哪些是瞎编的。现有的方法要么是在导游说完后让他“改稿子”（事后修正），要么是通过奖励机制让他“少犯错”，但都没能教会导游什么时候该犹豫，什么时候该拍胸脯保证。

💡 CURE 的解决方案：给导游装上“自我怀疑”的雷达

CURE 的核心思想是：不要只教导游“说什么”，更要教他“有多确定”。

1. 把大文章拆成“原子积木” (Claim-aware Reasoning)

以前，导游一口气讲完整个故事，你很难知道哪一句是错的。
CURE 要求导游把回答拆成一个个独立的“事实积木”（原子声明）。

比喻：就像搭乐高。导游不再直接扔给你一座城堡，而是先拿出一块块积木，每块积木上都要贴个标签，写上“我有多确定这块积木是真的”。
- 积木 A（大卫·鲍伊的生日）：标签写着“我 98% 确定”。
- 积木 B（大卫·鲍伊去世的具体日期）：标签写着“我只有 30% 确定，因为资料有点模糊”。

2. 分三步走的“特训营” (Multi-stage Training)

为了让导游学会这种“自我怀疑”的能力，CURE 设计了一个三阶段的训练过程，就像教练分步骤训练运动员：

第一阶段：立规矩（可行性诱导）
- 目标：先让导游学会怎么把故事拆成积木，并且保证积木是独立的、可验证的。
- 比喻：就像教孩子怎么把乐高分类放好，不能乱堆。如果导游乱说话（比如把无关的东西混进来），教练就立刻叫停。
第二阶段：练“诚实度”（校准优化）
- 目标：这是最关键的一步。教练会检查导游贴的标签（信心值）和事实对不对得上。
- 比喻：如果导游说“我 90% 确定这块积木是真的”，结果发现是假的，教练就会严厉纠正：“你太自信了！下次遇到这种不确定的情况，标签要改成 30%！”
- 创新点：以前的训练是“一边学知识一边学自信”，结果模型为了拿高分，倾向于所有事情都标 100% 自信（因为这样看起来最像正确答案）。CURE 把“学知识”和“学自信”分开练，先专门练“诚实评估”，让模型学会在不确定时承认不确定。
第三阶段：练“准确性”（事实优化）
- 目标：在模型已经学会“诚实评估”后，再让它努力让那些高置信度的积木变得更准确。
- 比喻：现在导游已经知道什么时候该犹豫了，教练就鼓励他：“对于你非常有把握的那些积木，一定要确保它们绝对正确！”

3. 最后的“智能过滤” (Selective Prediction)

在真正给用户回答问题时，CURE 有一个神奇的机制：

比喻：如果导游对某块积木的自信度低于某个门槛（比如 0.6），他直接跳过这块积木，不把它放进最终的故事里，或者明确告诉用户：“这部分我不太确定，所以我没写进去。”
好处：这就像给文章加了一个“安全阀”。虽然文章可能变短了一点（因为删掉了不确定的部分），但剩下的每一句话都更可信。用户也能清楚地看到哪些是导游确定的，哪些是他存疑的。

🚀 实验结果：效果如何？

论文在四个不同的“长文写作考试”（如写传记、回答复杂事实问题）中测试了 CURE：

更准：相比其他先进的方法，CURE 生成的文章事实错误率大幅降低（在传记写作中，准确率提升了近 40%！）。
更诚实：模型不再“盲目自信”。当它说“我确定”时，通常是真的确定；当它说“我不确定”时，往往是真的有疑点。
更可控：用户可以设置一个“信任门槛”。如果你想要绝对准确但内容少一点，就调高门槛；如果你想要内容多一点，可以稍微降低门槛，但依然知道哪些是存疑的。

📝 总结

CURE 就像给 AI 导游装上了一颗“良心”和“测谎仪”。

它不再强迫 AI 为了显得聪明而强行回答所有问题，而是教会 AI：“如果你不确定，就承认不确定；如果你确定，就确保那是真的。” 这种“知之为知之，不知为不知”的态度，让 AI 生成的长文章变得更加可靠、透明，也更值得人类信任。

Each language version is independently generated for its own context, not a direct translation.

`)**：模型生成推理轨迹，识别候选事实，并显式地用自然语言表达不确定性（例如：“我不确定这个日期，因为来源模糊”）。

分解阶段 (<decompose>)：模型将回复拆解为独立的原子声明集合 $\{(c_i, p_i)\}$ ，其中 $c_i$ 是可验证的事实陈述， $p_i$ 是对应的主观置信度（0-1 之间）。
这种结构将不确定性锚定在可解释的声明单元上，为细粒度校准奠定了基础。

2.2 多阶段训练流水线 (Multi-Stage Training Pipeline)

CURE 的关键创新在于**显式解耦（Decoupling）**校准优化与事实性优化，避免联合优化导致的冲突。流程分为三个阶段：

阶段一：可行性诱导 (Feasibility Induction)
- 目标：建立符合格式约束的推理空间。
- 方法：首先通过监督微调（SFT）教会模型结构化格式；随后使用 GRPO（Group Relative Policy Optimization）进行强化学习，施加相关性、可验证性和忠实性（推理与声明一致）的约束，确保生成的声明是独立且可验证的。
阶段二：校准优化 (Calibration Optimization)
- 目标：使模型预测的置信度 $p_i$ 与声明的真实正确性 $z_i$ 对齐。
- 方法：采用 DPO（Direct Preference Optimization）。利用外部验证器（VeriScore）获取声明的正确性标签，构建偏好对：将置信度与正确性不匹配（如错误声明置信度高）的样本作为“拒绝样本”，修正后的样本（调整置信度以匹配正确性）作为“优选样本”。
- 优势：DPO 能够隔离内容变化，专注于学习置信度与正确性的映射关系，避免了 GRPO 在联合优化中因内容差异导致的训练不稳定。
阶段三：事实性优化 (Factuality Optimization)
- 目标：在保持校准好的置信度基础上，最大化事实准确性。
- 方法：使用 GRPO，但引入掩码奖励（Token-Masked Rewards）。奖励信号仅应用于声明内容的 Token，而屏蔽置信度推理和数值 Token 的梯度更新。这确保了事实性优化不会破坏阶段二学到的校准分布。

2.3 推理时的选择性预测 (Selective Prediction)

在推理阶段，利用校准后的置信度 $p_i$ 设定阈值 $\tau$ 。模型仅保留 $p_i \ge \tau$ 的高置信度声明，过滤掉不确定的声明，并生成最终答案。这赋予了用户控制精度与召回率权衡的能力。

3. 关键贡献

细粒度不确定性建模：首次将长文本生成中的不确定性建模从全局标量细化到原子声明级别，解决了长文本中不确定性分布不均的问题。
解耦训练策略：提出了一种创新的三阶段训练流程，通过 DPO 和掩码 GRPO 将校准与事实性优化解耦。实验证明，联合优化会导致模型为了最大化奖励而倾向于对所有声明赋予高置信度（过度自信），而解耦策略有效解决了这一问题。
可解释性与可控性：通过显式的置信度推理和选择性预测机制，使模型输出具有透明性，用户可根据需求调整置信度阈值，在“高准确率”和“高召回率”之间动态权衡。

4. 实验结果

作者在四个长文本事实性基准（FactBench, LongFact, Biography, FactRBench）上进行了评估，基座模型为 Llama3.1-8B-Instruct 和 Qwen3-4B。

事实准确性提升：CURE 在所有数据集上均取得了最高的声明级准确率。
- 在 Biography 数据集上，相比强基线 L2RF，准确率提升了 39.9%。
- 在 FactBench 上，准确率提升了 9.4%。
校准质量显著改善：
- 在 FactBench 上，AUROC（区分正确与错误声明的能力）提升了 16.0%，达到 0.667，优于所有基线。
- 相比联合优化方法，CURE 有效避免了过度自信，置信度分布更符合实际正确性。
召回率保持：在 FactRBench 上，CURE 在提升准确率的同时，保持了与基线模型相当的事实性召回率，证明了其选择性预测机制并未导致大量有效信息的丢失。
泛化性：在 Qwen3-4B 推理模型上同样取得了显著的性能提升，证明了框架的通用性。

5. 意义与影响

CURE 框架为解决大模型长文本生成中的幻觉问题提供了新的范式：

理论层面：证明了在强化学习中，将“校准”与“优化”解耦是解决过度自信问题的关键，为未来的不确定性建模研究提供了重要思路。
应用层面：通过提供细粒度的置信度估计和选择性预测能力，CURE 使得 LLM 生成的长文本更加可信、可控且透明。这对于医疗、法律、新闻等对事实准确性要求极高的领域具有极高的应用价值，用户可以根据风险偏好选择接受高置信度的信息，从而降低幻觉带来的风险。

综上所述，CURE 通过结构化的推理协议和创新的解耦训练策略，成功教会了模型“思考其不确定性”，显著提升了长文本生成的事实可靠性。

Think Through Uncertainty: Improving Long-Form Generation Factuality via Reasoning Calibration

🌟 核心问题：导游的“过度自信”

💡 CURE 的解决方案：给导游装上“自我怀疑”的雷达

1. 把大文章拆成“原子积木” (Claim-aware Reasoning)

2. 分三步走的“特训营” (Multi-stage Training)

3. 最后的“智能过滤” (Selective Prediction)

🚀 实验结果：效果如何？

📝 总结

2.2 多阶段训练流水线 (Multi-Stage Training Pipeline)

2.3 推理时的选择性预测 (Selective Prediction)

3. 关键贡献

4. 实验结果

5. 意义与影响

类似论文

Filtered Reasoning Score: Evaluating Reasoning Quality on a Model's Most-Confident Traces

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

LLMs Struggle with Abstract Meaning Comprehension More Than Expected

Benchmarking Deflection and Hallucination in Large Vision-Language Models

Empirical Evaluation of PDF Parsing and Chunking for Financial Question Answering with RAG