Integrating Group and Individual Fairness Auditing in Clinical AI: A Post-Hoc, Model-Agnostic Approach

本文介绍了 EquiLense,这是一种实用、事后且与模型无关的审计工具,它通过利用一种名为“平均预测概率差异”(MPPD)的新颖指标来识别不同人口群体间的系统性预测不一致性,从而弥合临床人工智能中群体公平性与个体公平性评估之间的鸿沟。

原作者: Xu, J., Hwang, Y. M., Kondareddy, S., Dormoy, I., Jing, S. L., Pillai, M., Curtin, C. M., Hernandez-Boussard, T.

发布于 2026-04-30
📖 1 分钟阅读☕ 轻松阅读

原作者: Xu, J., Hwang, Y. M., Kondareddy, S., Dormoy, I., Jing, S. L., Pillai, M., Curtin, C. M., Hernandez-Boussard, T.

原始论文采用 CC BY 4.0 许可(https://creativecommons.org/licenses/by/4.0/)。 ⚕️ 这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

想象一下,你拥有一位非常智能的自动化助手,它能帮助医生预测患者术后的恢复情况。这位助手总体上工作出色,但总有一个挥之不去的担忧:它是否公平地对待了每个人?

有时,这些助手可能会以两种不同的方式表现出不公:

  1. 群体不公:它持续地为某一整个人群(如特定种族或性别)给出比另一群体更差的预测。
  2. 个体不公:它仅仅因为两名患者属于不同群体,就对他们采取不同的对待方式,尽管他们在医学上是完全相同的(年龄相同、健康状况相同、手术相同)。

问题在于,大多数用于检查公平性的工具只关注其中一个角度。它们可能会检查 A 群体是否比 B 群体获得更差的评分,却忽略了两个具体且完全相同的治疗对象受到了不同对待的事实;或者,它们检查相同患者是否受到同等对待,却忽略了整个群体遭受系统性偏见这一更大的图景。

登场:“均衡透镜”(EquiLense):公平之镜

本文的作者们开发了一种新工具,名为EquiLense。你可以把它想象成一副“公平之镜”,医生或开发者可以在 AI 模型已经构建并运行之后戴上它。你无需重建引擎,只需透过这副眼镜,就能看清真实情况。

EquiLense 通过以下三项主要功能提供全面的图景:

  1. 群体检查:它从宏观角度审视,查看某些人口统计群体是否系统性地获得了比其他群体更差的预测。
  2. 个体检查:它找出医学上的“双胞胎”患者(年龄相同、病史相同),并检查 AI 是否给予他们相同的预测。如果 AI 仅仅因为种族或保险类型不同,就给其中一人“高风险”评分,而给另一人“低风险”评分,这就是一个危险信号。
  3. “平均预测概率差”(MPPD):这是本文的独门秘籍。它是一种衡量那些“医学双胞胎”之间差距的新方法。

这里有一个关于 MPPD 的简单类比:
想象你是一位法官,正在对两名犯下完全相同罪行、拥有完全相同背景的人进行量刑。

  • 公平:两人都被判 5 年。
  • 不公:一人被判 5 年,另一人仅因来自不同社区而被判 10 年。

MPPD 就像一把尺子,精确测量在整个法庭范围内,第二个人比第一个人多获得了多少刑期(平均值)。它将那些本应受到同等对待的人之间的“不公差距”量化。

他们发现了什么?

研究团队在涉及 59,000 多名手术患者的真实医院数据上测试了 EquiLense。他们考察了预测两种情况的模型:谵妄(术后意识模糊)和再入院(30 天内再次住院)。

  • 令人惊讶的发现:AI 模型在整体预测结果方面实际上相当出色(它们是准确的)。然而,当他们戴上 EquiLense 这副眼镜时,发现模型仍然根据种族对“医学双胞胎”给予不同的对待。
  • 具体案例:对于在医学上与白人患者完全相同的患者,亚裔患者获得的预测存在系统性差异(且更不公平)。他们评分之间的“差距”是可测量且显著的。
  • 修复测试:他们进行了一项简单的实验:要求 AI 在做出预测时忽略种族和保险类型。当他们这样做时,“不公差距”(即 MPPD 分数)显著缩小。这表明,仅仅从模型的“大脑”中移除这些特定数据点,就能让模型更平等地对待相似患者,而不会降低模型的工作能力。

这对其他问题有效吗?

为了确保他们的新尺子(MPPD)确实有效,他们在两个已知的存在偏见的著名非医学数据集上进行了测试:

  1. COMPAS:一种用于预测罪犯是否会再次犯罪的工具。(我们已知该工具历史上对黑人被告存在偏见)。
  2. UCI 成人收入:一个预测某人收入是否超过 5 万美元的数据集。(我们已知该数据集存在历史性的性别偏见)。

结果:EquiLense 的 MPPD 指标成功标记了我们已知受到不公平对待的特定群体(COMPAS 数据中的黑人被告和收入数据中的女性)。这证明了该工具是有效的。

这为什么重要?

该论文认为,我们需要一种工具,它不需要我们抛弃当前的 AI 模型并从头开始(这既昂贵又困难),而是需要一种在模型构建完成后对其进行审计的方法。

EquiLense 就像是医疗 AI 的质量控制检查员。它不会为你修复机器,但它会提供一份清晰、易懂的成绩单,上面写着:“嘿,你的机器在数学方面很擅长,但它仅仅因为背景不同,就对这两个完全相同的治疗对象采取了不同的对待方式。”

这使得医生和开发者能够做出明智的选择,例如决定是否从模型中移除某些数据点(如种族)以使其更公平,而无需成为数学专家或从头重建整个系统。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →