Uncertainty-aware Language Guidance for Concept Bottleneck Models

本文提出了一种不确定性感知的概念瓶颈模型方法,该方法不仅能以分布无关的严格保证量化大语言模型标注概念的不确定性,还能将这种不确定性融入模型训练过程,从而有效缓解大模型幻觉带来的风险并提升模型性能。

Yangyi Li, Mengdi Huai

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种让 AI 变得更聪明、更诚实的新方法。为了让你轻松理解,我们可以把整个过程想象成**“招聘一位既懂行又靠谱的专家顾问”**。

1. 背景:AI 的“黑盒”困境

现在的深度学习 AI(比如识别图片的模型)就像是一个**“黑盒”**。它能告诉你“这是一只猫”,但它说不出为什么。如果它看错了,我们也不知道它是因为把猫耳朵看成了狗耳朵,还是因为背景太乱。

为了解决这个问题,科学家发明了**“概念瓶颈模型”(CBM)**。

  • 比喻:这就像让 AI 在给出最终答案前,先像人类一样“思考”并列出几个关键特征。比如,它必须先确认:“有胡须”、“有尖耳朵”、“是哺乳动物”,然后才能说“这是猫”。这样,人类就能看懂它的推理过程了。

2. 问题:请“专家”太贵,请"AI 助手”太飘

传统的 CBM 需要人类专家手动标注这些特征(比如告诉 AI 哪张图里有胡须)。但这太贵、太慢了。
于是,人们尝试用**大语言模型(LLM,比如现在的各种 AI 聊天机器人)**来自动帮 AI 找这些特征。

但这带来了两个大麻烦:

  1. AI 会“胡言乱语”(幻觉):大语言模型有时候会一本正经地胡说八道。比如它可能在一幅“金枪鱼”的图里,信誓旦旦地说看到了“黄色的眼睛”(其实那是背景里的太阳)。如果直接把这些错误特征教给 AI,AI 就会学坏。
  2. 不知道什么时候该信:现有的方法直接把大语言模型说的话当成真理,完全忽略了它可能是在“瞎编”。而且,有些特征大语言模型很确定,有些它很犹豫,但现有方法把这两种情况一视同仁,导致 AI 学不到重点。

3. 解决方案:给 AI 戴上一副“不确定性眼镜”

这篇论文的作者(Yangyi Li 和 Mengdi Huai)提出了一种新方法,叫 ULCBM。我们可以把它想象成给大语言模型戴上了一副**“不确定性眼镜”,并配备了一套“严格的质量检测流程”**。

第一步:给“胡言乱语”定规矩(不确定性量化)

以前,大语言模型说“有胡须”,我们就信了。现在,我们引入了一个**“置信度过滤器”**。

  • 比喻:想象大语言模型是一个**“有点健忘但知识渊博的实习生”**。
    • 以前:实习生说“这里有胡须”,老板(AI 模型)就照单全收。
    • 现在:老板会问:“你有多确定?”
    • 论文发明了一套数学工具(基于共形预测 Conformal Prediction),能计算出实习生对每个特征的**“把握程度”**。
    • 如果实习生对“胡须”很有把握(比如 99% 确定),就采纳;如果他对“黄色的眼睛”很犹豫(比如只有 50% 把握,或者那是幻觉),就坚决剔除。
    • 关键点:这套方法不是拍脑袋决定的,它有数学上的“法律保证”。就像法官判案,保证错误率不会超过某个设定的红线(比如 10%)。

第二步:三个维度的“质检员”

为了筛选出最好的特征,他们设立了三个“质检员”:

  1. 鉴别力(Discriminability):这个特征能区分“猫”和“狗”吗?(如果“有眼睛”对猫狗都一样,那它就没用,淘汰)。
  2. 覆盖率(Coverage):我们选的特征够全面吗?(不能只选了“胡须”,漏了“尾巴”)。
  3. 多样性(Diversity):有没有重复啰嗦的?(比如“黑色的毛”和“深灰色的毛”意思差不多,留一个就行,别占地方)。

只有同时通过这三个质检员,特征才会被保留。

第三步:修补“数据荒”(针对性数据增强)

经过严格筛选后,有些特征(比如某种稀有鸟类的“特殊羽毛”)可能因为太罕见,大语言模型很少提到,导致 AI 训练时根本没见过这些特征。

  • 比喻:这就像教学生认一种罕见的鸟,但课本里只有 3 张图,学生肯定学不会。
  • 解决方法:作者发明了一种**“智能拼图”**技术。
    • 系统发现“特殊羽毛”这个概念太少了。
    • 它就从其他图片里,小心翼翼地剪下那块“特殊羽毛”的补丁。
    • 关键技巧:它非常小心,绝不让补丁盖住原本就存在的、确定的特征(比如不会把“翅膀”盖住)。
    • 然后把这些新拼好的图片塞进训练集,让 AI 多练习几次。这样,AI 就能学会那些原本因为数据太少而被忽略的重要特征。

4. 结果:更聪明、更可靠的 AI

通过在真实数据集(如 CIFAR 和 CUB 鸟类数据集)上的测试,这种方法效果显著:

  • 更准:AI 的分类准确率提高了。
  • 更稳:对于那些很难识别的类别(比如长得像的鸟),表现提升最明显。
  • 更诚实:AI 不再盲目相信大语言模型的胡话,而是只相信经过“数学担保”的可靠信息。

总结

简单来说,这篇论文就是给 AI 请了一位**“带数学执照的质检员”
它不让 AI 盲目听从大语言模型的指挥,而是先
算出大语言模型有多靠谱**,把不靠谱的信息过滤掉,再把稀缺的信息通过**“智能拼图”**补全。最终,训练出来的 AI 不仅看得准,还能清楚地解释自己为什么这么看,而且在这个过程中,它学会了如何区分“事实”和“幻觉”。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →