Each language version is independently generated for its own context, not a direct translation.
想象一下,你正在向一位非常自信、学识渊博的图书管理员(即人工智能)提问。这位图书管理员可能会以绝对肯定的语气作答,即使他完全答错了。这就是该论文所解决的“过度自信”问题:大型语言模型(LLM)常常在听起来百分之百确定的同时,却胡编乱造(产生幻觉)。
该论文介绍了一种名为ACSE(自适应共形语义熵)的新安全系统。你可以将 ACSE 视为一种“现实核查”机制,它不仅倾听图书管理员说了什么,还会核查图书管理员是否真的确信其答案的含义。
以下是其工作原理的简化步骤:
1. 问题:“同义词陷阱”
当前的安全检查通常关注 AI 选择的具体词汇。如果 AI 有 70% 的时间说“首都是悉尼”,而有 30% 的时间说“首都是堪培拉”,一个简单的词频计数器可能会想:“哦,它相当确定是悉尼!”并给它放行。
但这里有个陷阱:AI 可能对错误的答案(悉尼)很自信,而对正确的答案(堪培拉)却不确定。或者,它可能会给出五个不同的答案,但它们都表达相同的意思(例如:“悉尼”、"Syd"、“那个大港口城市”)。简单的词频计数器会被这些变体搞糊涂,误以为 AI 不确定,而实际上它只是在闲聊。
2. 解决方案:“群体拥抱”法(语义聚类)
ACSE 改变了游戏规则,它要求 AI 对同一个问题回答十次。
- 步骤 A:它将这十个答案转化为“意义地图”(嵌入向量)。
- 步骤 B:它根据含义而非拼写,将这些答案分组到不同的“社区”中。
- 示例:如果 9 个答案说“悉尼”,1 个说“堪培拉”,它们会形成两个截然不同的社区。
- 示例:如果 5 个答案说“悉尼”,5 个说“首都是悉尼”,它们都会因为含义相同而被“拥抱”进同一个社区。
3. “脆弱性”检测器(自适应膨胀)
这是该论文的秘诀所在。仅仅因为 AI 对某个答案(如“悉尼”)达成一致,并不意味着该答案是安全的。
- 类比:想象一群人都在同意一个方向。如果他们全都站在一个紧密、稳固的圆圈里,那就是强有力的共识。但如果他们全都站在一个摇晃、不稳的地板上同意一个方向,那就是脆弱的共识。
- ACSE 会寻找这种“摇晃”。它会检查同意“悉尼”的群体是否实际上很 shaky(也许答案略有不同,或者群体非常小)。
- 如果群体是“脆弱”的,ACSE 就会膨胀不确定性评分。它本质上是在说:“虽然你们都达成一致,但你们的共识很 shaky,所以我将把这视为高风险情况。”
4. “安全网”(共形校准)
最后,系统需要确切知道何时说“我不知道”(弃权),何时给出答案。
- 作者使用了一种名为共形预测的统计“安全网”。
- 他们首先在一系列练习问题上测试该系统,从而确定一条“截止线”。
- 规则:如果“摇晃分数”(不确定性)低于这条线,AI 就作答;如果高于这条线,AI 就保持沉默。
- 保证:这不是猜测。数学保证,如果你将安全网设定为能捕捉 90% 的错误,那么无论 AI 在做什么,它都会捕捉到至少 90% 的错误。它承诺,你所看到的错误将是罕见的。
结果:为何这很重要
该论文在各种 AI 模型和数据集(如常识问答)上测试了这种方法。
- 竞争对手:旧方法(如计算词概率)就像一把摇晃的指南针。它们经常对错误的答案给出高置信度。
- 获胜者:ACSE 就像一个聪明的导航员。在常识问答测试中,它正确识别错误答案的准确率达到 88%(AUROC 0.88),而次佳方法仅为 80%。
- 安全性:与以往的方法相比,它成功地在高风险情境下更频繁地阻止 AI 给出错误答案,同时又不会过于谨慎以至于拒绝回答任何问题。
一句话总结
ACSE 是一个系统,它要求 AI 多次回答同一个问题,根据含义而非词汇对答案进行分组,检查该群体是站在坚实的地面上还是摇晃的地面上,并利用经过数学证明的安全网来决定何时发声、何时保持沉默。它确保当 AI 开口时,它不仅仅是自信的,而且是真正可靠的。
Each language version is independently generated for its own context, not a direct translation.
技术摘要:自适应共形语义熵(ACSE)
问题陈述
大型语言模型(LLM)经常表现出过度自信,特别是在生成幻觉时,这给医疗、法律和科学研究等安全关键领域的部署带来了重大风险。现有的不确定性量化(UQ)方法主要依赖令牌级信号,如下一令牌熵或序列对数似然。这些方法无法捕捉语义方差;它们通常对词汇多样但语义不一致或不正确的输出赋予高置信度。此外,最近的语义级方法(如语义熵 SE)依赖硬聚类,由于忽略了重叠的语义区域,可能产生不稳定的估计。其他共形方法虽然提供了统计保证,但通常将不确定性视为标量信号,使它们容易陷入“错误共识”陷阱,即词汇一致但事实错误的聚类满足了置信度阈值。
方法论
本文提出了自适应共形语义熵(ACSE),这是一个模型无关的框架,通过测量 LLM 输出中的语义分散性来估计提示级别的不确定性。该方法通过三个主要阶段运行:
语义嵌入与软聚类:
对于给定的提示,模型使用核采样生成 n 个多样化的响应。这些响应使用句子编码器嵌入到连续的语义向量空间中。ACSE 不使用硬聚类,而是采用基于余弦距离的层次凝聚聚类(HAC)来形成语义组,随后进行软聚类分配。这使得响应可以概率性地属于多个聚类,从而保留语义模糊性的信号。基于生成的聚类分布的归一化熵,推导出基础不确定性分数 u(x)。
自适应不确定性膨胀:
为了解决聚类中的结构脆弱性(例如,主导聚类支持薄弱或内部多样性高),ACSE 引入了调整后的不确定性分数 u^(x)。该分数基于五个提示级别的鲁棒性特征对基础语义熵进行膨胀:
- 语义熵: 测量多模态性。
- 质心距离: 评估主导响应的几何支持。
- 主导聚类分散度: 量化内部一致性。
- 主导聚类大小: 惩罚仅由少量样本支持的脆弱共识。
- 距阈值的余量: 抑制低不确定性区域中不必要的置信度。
这些特征被聚合成一个“脆弱性度量” B(x),用于缩放膨胀因子 λ(x)。最终分数 u^(x) 是一个有界的单调变换,当聚类结构指示风险时会增加不确定性。
共形校准:
调整后的分数使用**共形预测(CP)**在保留的提示集上进行校准。这建立了一个具有有限样本、分布无关保证的决策规则。该系统执行两项功能:
- 提示级别决策: 根据截断阈值确定是接受答案还是放弃,确保被接受响应中的错误率保持在用户指定的容差 α 以下。
- 响应级别预测集: 构建满足共形覆盖的采样响应集合,通过识别语义代表性且符合共形要求的输出,支持用户决策。
主要贡献
- ACSE 框架: 一种在语义级别估计基于熵的不确定性的新方法,超越了令牌级信号以捕捉意义的分散性。
- 自适应膨胀机制: 一种利用聚类鲁棒性特征来自适应膨胀语义不确定性的调整后不确定性分数,明确惩罚模糊的响应语义并减轻幻觉。
- 共形保证: 一个事后校准阶段,学习提示级别放弃和响应级别预测集的截断值,提供关于错误率的正式保证。
- 实证验证: 广泛的实验表明,与最先进基线相比,ACSE 在区分能力和校准方面表现更优。
实验结果
作者在五个基准测试(TriviaQA、CoQA、Natural Questions、TruthfulQA 和 MMLU)上,使用各种 LLM 架构(Mistral-7B、LLaMA-2、Falcon、Qwen)评估了 ACSE。
- 幻觉检测: ACSE 在区分指标上始终优于基线。在 TriviaQA 数据集上,ACSE 实现了0.88 的 AUROC,显著超越了令牌熵基线(0.65)和共形放弃策略(CAP)(0.80)。
- 安全指标: ACSE 在高召回阈值下表现出更低的假阳性率(FPR)。例如,在 Falcon-7B 上,ACSE 将 FPR@95 从 0.48(CAP)降低到 0.31,被接受的幻觉相对减少了 35.4%。
- 共形保证: ACSE 严格遵守用户指定的覆盖水平(α),同时保持比竞争方法更高的接受率。在 α=0.10 时,ACSE 实现了 75.8% 的接受率,而 CAP 为 65.4%,且平均预测集大小更小(1.07 对比 1.32),校准稳定性(SSCV)更优。
- 不确定性量化: 视觉分析证实,ACSE 有效地将正确响应与幻觉分离开来,即使基线方法(如 SE 或令牌熵)表现出高置信度,ACSE 仍对幻觉分配高不确定性。
意义
本文声称,ACSE 通过解决现有 UQ 方法的具体故障模式,为 LLM 在安全关键领域的可靠部署提供了稳健的解决方案:无法区分表面的词汇变化与真正的语义模糊性,以及容易陷入错误共识陷阱。通过将语义分散性分析与自适应膨胀和共形保证相结合,ACSE 提供了一种统计上严格的机制,用于检测幻觉并控制错误率,而无需重新训练模型。作者认为,尽管采样和后期处理会产生计算开销,但在模型可靠性至关重要的重大应用中,这种成本是合理的。