Trusted Uncertainty in Large Language Models: A Unified Framework for Confidence Calibration and Risk-Controlled Refusal

本文介绍了 UniCR,这是一个统一的框架,它将异构的不确定性证据融合为校准后的正确性概率,通过原则性的拒绝机制来强制执行用户指定的误差预算,从而在无需对基座模型进行微调的情况下,提高大型语言模型的可信度并减少幻觉。

原作者: Markus Oehri, Giulia Conti, Kaviraj Pather, Alexandre Rossi, Laia Serra, Adrian Parody, Rogvi Johannesen, Aviaja Petersen, Arben Krasniqi

发布于 2026-06-15
📖 1 分钟阅读☕ 轻松阅读

原作者: Markus Oehri, Giulia Conti, Kaviraj Pather, Alexandre Rossi, Laia Serra, Adrian Parody, Rogvi Johannesen, Aviaja Petersen, Arben Krasniqi

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

想象一下,你有一个非常聪明、语速很快的助手,他几乎无所不知。问题在于,这个助手有时会对自己并不了解的事情表现出绝对的自信,或者可能会编造一些听起来很真实但实际上是错误的事实。这有点像一个在考试中猜答案的学生,即使是在瞎猜,也会说:“我百分之百确定!”

你分享的这篇论文介绍了一个名为 UniCR 的新系统。你可以把 UniCR 想象成一个智能“质量控制经理”,它坐在提问者和助手之间。它的主要职责是教会助手什么时候该开口说话,更重要的是,什么时候该保持沉默。

以下是 UniCR 的工作原理,我们使用一些日常类比:

1. 收集线索(侦探工作)

通常情况下,AI 只会根据自己的内部想法来决定自己是否正确。而 UniCR 则不同;它像是一个从许多不同来源收集线索的侦探,在做出判断之前先进行调查。它会检查:

  • AI 的感觉有多确定: AI 自身的“直觉”(可能性)是否与答案相匹配?
  • 一致性: 如果你用五种不同的方式问 AI 同一个问题,它每次给出的答案都一样吗?如果答案五花八门,那就是一个危险信号。
  • 外部帮助: AI 是否找到了可靠的文件或使用了计算器(工具)来支持它的答案?
  • “真伪检查”: 这个答案是否符合我们已知的事实?

2. “信心计”(校准)

一旦侦探收集齐了所有这些线索,UniCR 就不会仅仅靠猜测;它会计算一个经过校准的概率。想象一下,曾经有一个天气预报说“可能有 50% 的概率下雨”,但实际上降雨概率是 90%。那个预报是不可靠的。UniCR 修复了这个问题。它调整了 AI 的信心计,使得当 AI 说“我有 90% 的把握”时,它实际上的确意味着有 90% 的概率是正确的。它使用一个简单的“调节旋钮”(温度缩放)来确保 AI 的信心与现实相符。

3. 安全预算(风险控制型拒绝)

这是最重要的部分。想象你在开车,并且有一个严格的规则:“我每行驶 1,000 英里最多只能承受一次爆胎的风险。”
UniCR 为 AI 设置了一个类似的错误预算。如果 AI 的信心得分跌破了某个界限,导致可能会突破那个预算,UniCR 就会强制 AI 拒绝回答。与其给出一个错误的答案,它会说:“关于这个问题,我掌握的信息不足以安全地回答。”

至关重要的一点是,即使 AI 是一个“黑盒”(你看不见它内部是如何思考的),这个系统依然有效。你不需要重新训练 AI 或改变它的“大脑”,你只需要在上面添加这个安全经理即可。

4. 处理长篇故事(事实核查)

当 AI 需要撰写长篇故事或报告时,很容易在无意中捏造事实。UniCR 会根据真实证据(比如在图书馆中查阅事实)来核查故事。如果 AI 写出的句子与证据相矛盾,UniCR 就会降低该特定部分的信心值。这能阻止 AI 自信地编造荒诞的故事。

实验结果

论文在三类任务上测试了这个系统:

  1. 短问题(如百科知识问答)。
  2. 编写代码(通过实际运行代码来查看其是否有效)。
  3. 长篇研究回答(使用外部文档)。

在所有这些测试中,UniCR 的表现都优于旧的方法。它更擅长识别自己何时不确定,在它“回答”时犯的错误更少,并且能在遵守安全规则的前提下,更准确地回答更多问题。

简而言之: UniCR 是一个通用的安全网,它教会 AI 在自信地瞎猜之前学会说“我不知道”。它结合了多种不同的线索来决定何时发言、何时保持沉默,从而确保 AI 保持在安全的错误限制范围内,且无需从头开始重建 AI。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →