LLMs Uncertainty Quantification via Adaptive Conformal Semantic Entropy

本文提出自适应共形语义熵(ACSE),这是一种通过自适应测量多样化响应间的语义离散度并应用共形校准以提供有限样本、分布无关的误差保证,从而在安全关键应用中超越现有词汇和概率基线的新型大语言模型不确定性量化方法。

原作者: Hamed Karimi, Vaishali Meyappan, Reza Samavi

发布于 2026-05-07
📖 1 分钟阅读☕ 轻松阅读

原作者: Hamed Karimi, Vaishali Meyappan, Reza Samavi

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

想象一下,你正在向一位非常自信、学识渊博的图书管理员(即人工智能)提问。这位图书管理员可能会以绝对肯定的语气作答,即使他完全答错了。这就是该论文所解决的“过度自信”问题:大型语言模型(LLM)常常在听起来百分之百确定的同时,却胡编乱造(产生幻觉)。

该论文介绍了一种名为ACSE(自适应共形语义熵)的新安全系统。你可以将 ACSE 视为一种“现实核查”机制,它不仅倾听图书管理员说了什么,还会核查图书管理员是否真的确信其答案的含义。

以下是其工作原理的简化步骤:

1. 问题:“同义词陷阱”

当前的安全检查通常关注 AI 选择的具体词汇。如果 AI 有 70% 的时间说“首都是悉尼”,而有 30% 的时间说“首都是堪培拉”,一个简单的词频计数器可能会想:“哦,它相当确定是悉尼!”并给它放行。

但这里有个陷阱:AI 可能对错误的答案(悉尼)很自信,而对正确的答案(堪培拉)却不确定。或者,它可能会给出五个不同的答案,但它们都表达相同的意思(例如:“悉尼”、"Syd"、“那个大港口城市”)。简单的词频计数器会被这些变体搞糊涂,误以为 AI 不确定,而实际上它只是在闲聊。

2. 解决方案:“群体拥抱”法(语义聚类)

ACSE 改变了游戏规则,它要求 AI 对同一个问题回答十次。

  • 步骤 A:它将这十个答案转化为“意义地图”(嵌入向量)。
  • 步骤 B:它根据含义而非拼写,将这些答案分组到不同的“社区”中。
    • 示例:如果 9 个答案说“悉尼”,1 个说“堪培拉”,它们会形成两个截然不同的社区。
    • 示例:如果 5 个答案说“悉尼”,5 个说“首都是悉尼”,它们都会因为含义相同而被“拥抱”进同一个社区。

3. “脆弱性”检测器(自适应膨胀)

这是该论文的秘诀所在。仅仅因为 AI 对某个答案(如“悉尼”)达成一致,并不意味着该答案是安全的。

  • 类比:想象一群人都在同意一个方向。如果他们全都站在一个紧密、稳固的圆圈里,那就是强有力的共识。但如果他们全都站在一个摇晃、不稳的地板上同意一个方向,那就是脆弱的共识
  • ACSE 会寻找这种“摇晃”。它会检查同意“悉尼”的群体是否实际上很 shaky(也许答案略有不同,或者群体非常小)。
  • 如果群体是“脆弱”的,ACSE 就会膨胀不确定性评分。它本质上是在说:“虽然你们都达成一致,但你们的共识很 shaky,所以我将把这视为高风险情况。”

4. “安全网”(共形校准)

最后,系统需要确切知道何时说“我不知道”(弃权),何时给出答案。

  • 作者使用了一种名为共形预测的统计“安全网”。
  • 他们首先在一系列练习问题上测试该系统,从而确定一条“截止线”。
  • 规则:如果“摇晃分数”(不确定性)低于这条线,AI 就作答;如果高于这条线,AI 就保持沉默。
  • 保证:这不是猜测。数学保证,如果你将安全网设定为能捕捉 90% 的错误,那么无论 AI 在做什么,它会捕捉到至少 90% 的错误。它承诺,你所看到的错误将是罕见的。

结果:为何这很重要

该论文在各种 AI 模型和数据集(如常识问答)上测试了这种方法。

  • 竞争对手:旧方法(如计算词概率)就像一把摇晃的指南针。它们经常对错误的答案给出高置信度。
  • 获胜者:ACSE 就像一个聪明的导航员。在常识问答测试中,它正确识别错误答案的准确率达到 88%(AUROC 0.88),而次佳方法仅为 80%。
  • 安全性:与以往的方法相比,它成功地在高风险情境下更频繁地阻止 AI 给出错误答案,同时又不会过于谨慎以至于拒绝回答任何问题。

一句话总结

ACSE 是一个系统,它要求 AI 多次回答同一个问题,根据含义而非词汇对答案进行分组,检查该群体是站在坚实的地面上还是摇晃的地面上,并利用经过数学证明的安全网来决定何时发声、何时保持沉默。它确保当 AI 开口时,它不仅仅是自信的,而且是真正可靠的。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →