Trusted Uncertainty in Large Language Models: A Unified Framework for… — 通俗解释

原作者： Markus Oehri, Giulia Conti, Kaviraj Pather, Alexandre Rossi, Laia Serra, Adrian Parody, Rogvi Johannesen, Aviaja Petersen, Arben Krasniqi

发布于 2026-06-15

📖 1 分钟阅读☕ 轻松阅读

查看于 arXiv ↗PDF ↗

CC BY 4.0

原作者： Markus Oehri, Giulia Conti, Kaviraj Pather, Alexandre Rossi, Laia Serra, Adrian Parody, Rogvi Johannesen, Aviaja Petersen, Arben Krasniqi

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性，请参阅原始论文。阅读完整免责声明

想象一下，你有一个非常聪明、语速很快的助手，他几乎无所不知。问题在于，这个助手有时会对自己并不了解的事情表现出绝对的自信，或者可能会编造一些听起来很真实但实际上是错误的事实。这有点像一个在考试中猜答案的学生，即使是在瞎猜，也会说：“我百分之百确定！”

你分享的这篇论文介绍了一个名为 UniCR 的新系统。你可以把 UniCR 想象成一个智能“质量控制经理”，它坐在提问者和助手之间。它的主要职责是教会助手什么时候该开口说话，更重要的是，什么时候该保持沉默。

以下是 UniCR 的工作原理，我们使用一些日常类比：

1. 收集线索（侦探工作）

通常情况下，AI 只会根据自己的内部想法来决定自己是否正确。而 UniCR 则不同；它像是一个从许多不同来源收集线索的侦探，在做出判断之前先进行调查。它会检查：

AI 的感觉有多确定： AI 自身的“直觉”（可能性）是否与答案相匹配？
一致性： 如果你用五种不同的方式问 AI 同一个问题，它每次给出的答案都一样吗？如果答案五花八门，那就是一个危险信号。
外部帮助： AI 是否找到了可靠的文件或使用了计算器（工具）来支持它的答案？
“真伪检查”： 这个答案是否符合我们已知的事实？

2. “信心计”（校准）

一旦侦探收集齐了所有这些线索，UniCR 就不会仅仅靠猜测；它会计算一个经过校准的概率。想象一下，曾经有一个天气预报说“可能有 50% 的概率下雨”，但实际上降雨概率是 90%。那个预报是不可靠的。UniCR 修复了这个问题。它调整了 AI 的信心计，使得当 AI 说“我有 90% 的把握”时，它实际上的确意味着有 90% 的概率是正确的。它使用一个简单的“调节旋钮”（温度缩放）来确保 AI 的信心与现实相符。

3. 安全预算（风险控制型拒绝）

这是最重要的部分。想象你在开车，并且有一个严格的规则：“我每行驶 1,000 英里最多只能承受一次爆胎的风险。”
UniCR 为 AI 设置了一个类似的错误预算。如果 AI 的信心得分跌破了某个界限，导致可能会突破那个预算，UniCR 就会强制 AI 拒绝回答。与其给出一个错误的答案，它会说：“关于这个问题，我掌握的信息不足以安全地回答。”

至关重要的一点是，即使 AI 是一个“黑盒”（你看不见它内部是如何思考的），这个系统依然有效。你不需要重新训练 AI 或改变它的“大脑”，你只需要在上面添加这个安全经理即可。

4. 处理长篇故事（事实核查）

当 AI 需要撰写长篇故事或报告时，很容易在无意中捏造事实。UniCR 会根据真实证据（比如在图书馆中查阅事实）来核查故事。如果 AI 写出的句子与证据相矛盾，UniCR 就会降低该特定部分的信心值。这能阻止 AI 自信地编造荒诞的故事。

实验结果

论文在三类任务上测试了这个系统：

短问题（如百科知识问答）。
编写代码（通过实际运行代码来查看其是否有效）。
长篇研究回答（使用外部文档）。

在所有这些测试中，UniCR 的表现都优于旧的方法。它更擅长识别自己何时不确定，在它“回答”时犯的错误更少，并且能在遵守安全规则的前提下，更准确地回答更多问题。

简而言之： UniCR 是一个通用的安全网，它教会 AI 在自信地瞎猜之前学会说“我不知道”。它结合了多种不同的线索来决定何时发言、何时保持沉默，从而确保 AI 保持在安全的错误限制范围内，且无需从头开始重建 AI。

Trusted Uncertainty in Large Language Models: A Unified Framework for Confidence Calibration and Risk-Controlled Refusal

1. 收集线索（侦探工作）

2. “信心计”（校准）

3. 安全预算（风险控制型拒绝）

4. 处理长篇故事（事实核查）

实验结果

类似论文