Hallucination Filtering in Radiology Vision-Language Models Using Discrete Semantic Entropy

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**如何防止医疗 AI“胡说八道”**的有趣故事。

想象一下，你请了一位非常博学但有点“爱吹牛”的 AI 医生（比如 GPT-4o 或 GPT-4.1）来看 X 光片或 CT 扫描。这位 AI 医生知识渊博，能回答各种医学问题，但它有一个致命的弱点：它有时会极其自信地编造事实（这在 AI 领域被称为“幻觉”）。

比如，它可能看着一张正常的肺部照片，却信誓旦旦地说：“这里有个肿瘤！”而且它说话的样子非常专业，让人很难分辨真假。在医疗领域，这种“自信的胡说”是极其危险的。

这篇论文提出了一种聪明的“防忽悠”策略，叫做离散语义熵（DSE）。我们可以用以下三个生动的比喻来理解它：

1. 核心比喻：让 AI 把同一道题做 15 遍

传统的做法是：医生问 AI 一个问题，AI 回答一次，我们就信一次。但这就像让一个学生只考一次试，万一他蒙对了或者蒙错了，我们都不知道。

这篇论文的做法是：
让 AI 把同一个问题连续回答 15 次。

如果 AI 很靠谱： 这 15 次回答虽然措辞可能不同，但核心意思应该是一样的。比如它 15 次都说“这是骨折”。
如果 AI 在“胡扯”： 它的回答就会像无头苍蝇一样乱撞。第 1 次说“骨折”，第 2 次说“肿瘤”，第 3 次说“没事”，第 4 次又说“肺炎”。

2. 检测工具：混乱度计（熵）

研究人员发明了一个叫“离散语义熵（DSE）”的指标，你可以把它想象成一个**“混乱度计”**。

低混乱度（DSE 低）： 就像 15 个学生都在说“答案是 A"。这说明 AI 很确定，答案很可能是对的。
高混乱度（DSE 高）： 就像 15 个学生吵成一团，有的说 A，有的说 B，有的说 C。这说明 AI 自己都不知道答案是什么，它正在“瞎编”。

3. 过滤机制：设立“安全门”

有了这个“混乱度计”，研究人员给 AI 装了一扇**“安全门”**：

如果混乱度低（AI 很确定）： 门打开，把答案交给医生参考。
如果混乱度高（AI 在瞎编）： 门关上，直接拒绝回答，并告诉医生：“这个问题太复杂，AI 拿不准，请您亲自看片子。”

实验结果：用“少”换“精”

研究人员在两个大型医学数据集上测试了这种方法（包括 500 张公开图片和 206 个真实临床病例）。

原本的情况： 如果不加过滤，AI 直接回答所有问题，准确率只有 50% 左右（差不多是抛硬币的水平，甚至更差）。
加上“安全门”后：
- 当设定一个严格的门槛（只让非常确定的答案通过）时，AI 拒绝回答了很多问题（比如拒绝了 50% 的问题）。
- 但是，剩下的那些被允许回答的问题，准确率飙升到了 76% 甚至更高！

这就好比：
原本 AI 是“来者不拒”，结果错了一半；
现在它学会了“知难而退”，只回答它有把握的，结果它说出来的每一句话都非常可信。

为什么这很重要？

不需要“透视眼”： 这种方法不需要知道 AI 内部是怎么工作的（不需要看它的代码或内部数据），只需要看它输出的结果。这意味着它可以用于任何商业化的 AI 模型（黑盒模型）。
成本低： 虽然要问 15 次，但现在的计算速度很快，成本增加并不多，完全可以融入医院的工作流程。
建立信任： 医生不再需要担心 AI 会自信地给出错误建议。如果 AI 说“我不知道”或者“这个问题我不确定”，医生就知道该自己出手了。

总结

这篇论文并没有宣称 AI 已经完美到可以独立看病了（事实上，对于复杂的病变识别，AI 目前还是很弱）。

它提出的是一种**“防忽悠过滤器”。通过让 AI 多问几次自己，看看它是否前后矛盾，从而把那些“自信的胡说八道”**过滤掉。

一句话概括：
与其让 AI 盲目地回答所有问题并经常犯错，不如让它**“知之为知之，不知为不知”**。通过这种“自我怀疑”的机制，我们能让 AI 在医疗领域变得更安全、更值得信赖。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

核心挑战：随着放射科工作量的增加和全球放射科医生短缺，人工智能（特别是视觉 - 语言模型，VLMs，如 GPT-4o）被引入以辅助诊断。然而，VLMs 存在严重的幻觉（Hallucination）问题，即生成看似合理但缺乏视觉证据或临床依据的错误输出。
现有局限：
- 人类专家会表达不确定性，但 VLMs 往往以极高的语言确定性呈现错误信息，这对诊断安全构成巨大风险。
- 传统的基于内部机制（如 Token 概率、激活值）的不确定性估计方法无法应用于黑盒模型（Black-box models），因为商业 API 不开放内部参数。
- 现有的辅助组件（如奖励模型）通常需要额外的训练数据或微调，难以在临床实践中直接部署。
研究目标：评估离散语义熵（Discrete Semantic Entropy, DSE）是否能作为一种无需访问模型内部的黑盒方法，有效识别放射学视觉问答（VQA）任务中的高风险幻觉，并通过过滤这些低质量回答来提高模型的诊断准确率。

2. 方法论 (Methodology)

本研究采用回顾性设计，利用两个公开的去标识化数据集，通过以下流程评估 DSE：

2.1 数据集

VQA-Med 2019：500 张放射图像，每张配有一个临床问题（涵盖模态、成像平面、器官、异常四个类别）。
RadDataset：206 个临床病例（60 例 CT、60 例 MRI、60 例 X 光、26 例血管造影），包含临床背景和经四位放射科医生共识确认的确诊诊断。
总样本：706 个图像 - 问题对。

2.2 模型与采样策略

模型：使用 OpenAI 的 GPT-4o 和 GPT-4.1（通过 Azure API 访问）。
基线准确率：每个问题使用低温（Temperature = 0.1）生成 1 次回答，作为基准。
不确定性采样：每个问题使用高温（Temperature = 1.0）生成 15 次独立回答，以激发模型的输出变异性并揭示潜在的不确定性。

2.3 离散语义熵 (DSE) 计算流程

语义聚类：利用双向蕴含检查（Bidirectional Entailment Checks），将 15 次回答中语义等价的答案归为一类（Cluster）。这避免了因措辞不同而人为增加熵值。
计算相对频率：计算每个簇 $C_i$ 在总回答中的相对频率 $P(C_i|x)$ 。
计算熵值：
$DSE(x) = - \sum_{C_i} P(C_i|x) \log_{10} P(C_i|x)$
- DSE = 0：所有回答语义完全一致（高确定性）。
- DSE 高：回答分散在多个不同语义簇中（高不确定性/潜在幻觉）。
过滤策略：设定阈值（ $DSE \le 0.6$ 和 $DSE \le 0.3$ ）。剔除 DSE 高于阈值的问题，仅保留低熵（高一致性）的回答进行准确率评估。

2.4 评估指标

准确率提升：比较过滤前后的准确率。
统计显著性：使用 Bootstrap 重采样（10 万次迭代）计算 p 值和 95% 置信区间，并应用 Bonferroni 校正（阈值 $p < 0.004$ ）。

3. 关键贡献 (Key Contributions)

首次将 DSE 应用于放射学 VQA：证明了离散语义熵不仅适用于文本生成，也能有效量化多模态（图像 + 文本）任务中的模型不确定性。
黑盒场景下的实用解决方案：提出了一种完全基于 API 输出、无需模型内部参数或额外训练数据的幻觉检测框架，可直接部署于商业闭源模型。
揭示了准确率与覆盖率的权衡：系统性地展示了通过提高过滤严格度（降低 DSE 阈值），可以显著提升剩余问题的准确率，但会牺牲回答的覆盖率（即拒绝更多问题）。
临床工作流集成可行性：分析了延迟和成本，证明该方法在计算成本和延迟上具有临床集成潜力。

4. 实验结果 (Results)

4.1 基线表现

在 706 个样本中，GPT-4o 的基线准确率为 51.7%，GPT-4.1 为 54.8%。
RadDataset（真实临床数据）表现较差（约 34%），表明通用 VLM 在复杂医学影像解读上存在显著局限。
异常检测（Abnormality）是最大短板，VQA-Med 中准确率仅为 13% 左右。

4.2 DSE 过滤后的性能提升

GPT-4o：
- 当阈值设为 DSE ≤ 0.3 时，准确率从 51.7% 飙升至 76.3%（保留了 334/706 个问题）。
- 当阈值设为 DSE ≤ 0.6 时，准确率提升至 62.9%。
GPT-4.1：
- 当阈值设为 DSE ≤ 0.3 时，准确率从 54.8% 提升至 63.8%（保留了 499/706 个问题）。
统计显著性：除极少数样本量过小的子集外，所有准确率提升均具有统计学显著性（ $p < 0.001$ ）。

4.3 子类别分析

模态识别（Modality）：基线准确率高，DSE 过滤效果不明显（几乎不拒绝问题）。
异常检测（Abnormality）：拒绝率极高（DSE ≤ 0.3 时超过 90%），但保留下来的问题准确率有显著提升（GPT-4o 从 13.6% 提升至 36.4%）。
代价：严格的过滤（DSE ≤ 0.3）导致大量问题被拒绝（覆盖率下降），例如 GPT-4o 在 RadDataset 的 CT 子集中仅保留了 8.3% 的问题。

4.4 成本与延迟

延迟：由于可并行处理，总延迟约为单次 API 调用的 2 倍（约 6 秒）。
成本：处理每个图像 - 问题对的总成本约为 $0.72（包括采样和蕴含检查），在临床可接受范围内。

5. 意义与局限性 (Significance & Limitations)

5.1 临床意义

增强信任：DSE 提供了一种可解释的不确定性信号，帮助放射科医生判断何时可以信任 AI 的回答，何时需要人工复核。
安全过滤：通过主动拒绝高不确定性（高熵）的回答，可以显著降低临床误诊风险，使 AI 从“盲目自信”转向“选择性回答”。
部署友好：无需微调或访问模型内部，适合快速集成到现有的 PACS 或报告系统中。

5.2 局限性与未来方向

一致性不等于正确性：DSE 衡量的是语义一致性，而非事实正确性。如果模型自信地重复同一个错误答案（Confident Hallucination），DSE 值会很低，从而绕过过滤（这是主要风险）。
2D 图像限制：研究仅使用了 2D 切片或关键帧，未完全涵盖 3D 体数据（如完整 CT/MRI 堆栈）的复杂性。
覆盖率权衡：为了获得高准确率，必须牺牲大量的回答覆盖率。在临床中需要平衡“不遗漏信息”与“避免错误”之间的关系。
验证需求：目前仅为回顾性研究，需要前瞻性临床试验来评估其对医生工作流、诊断信心及最终患者预后的实际影响。

总结

该论文证明了离散语义熵（DSE）是一种有效且实用的工具，用于在黑盒视觉 - 语言模型中检测放射学任务中的幻觉。虽然它不能解决所有幻觉问题（特别是自信的错误），但它能显著提高模型在保留回答中的准确率，为 AI 在放射学中的安全应用提供了一层关键的“安全网”。未来的工作应集中在结合其他不确定性信号以识别“自信的错误”，并进行大规模的临床前瞻性验证。