Investigating Gender Stereotypes in Large Language Models via Social Determinants of Health

该研究通过法语患者记录实验发现,大型语言模型会利用嵌入的社会决定因素刻板印象来做出基于性别的决策,表明评估社会决定因素之间的交互作用可有效补充现有的模型偏见评估方法。

Trung Hieu Ngo, Adrien Bazoge, Solen Quiniou, Pierre-Antoine Gourraud, Emmanuel Morin

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给大型语言模型(LLM)做一场特殊的“心理体检”,目的是看看它们在医疗场景下会不会因为性别刻板印象而“看走眼”。

想象一下,你请了一位超级聪明的 AI 医生助手,它读过海量的病历,能帮人类医生做诊断。但问题是,这位 AI 助手是在互联网上“长大”的,它脑子里装满了人类社会的各种偏见。

1. 核心问题:AI 会“脑补”吗?

在医疗领域,如果 AI 因为偏见而误诊,后果可能很严重。

  • 举个栗子:假设一位男性患者,病历里写着“已婚”、“有孩子”、“在超市工作”。
  • AI 的“脑补”:有些 AI 可能会想:“哦,在超市工作、照顾家庭,这听起来像是一位女性。”于是,它可能会在诊断建议里错误地加入“月经相关的问题”,哪怕病历里明确写了患者是男性。
  • 图 1 的警示:论文里展示了一个真实的例子,输入明明是男性,AI 却还在建议“月经问题”。这就是偏见在作祟。

2. 研究方法:给 AI 戴上“眼罩”

为了测试 AI 到底有多少偏见,研究人员设计了一个巧妙的实验,就像给 AI 戴上了“眼罩”,只让它看社会决定因素(SDoH),而不让它看明显的性别线索。

  • 什么是 SDoH? 就是决定一个人健康状况的那些“生活背景”,比如:住哪里、做什么工作、结没结婚、抽不抽烟、喝不喝酒、受教育程度等。
  • 怎么“戴眼罩”? 法语里很多词都有阴阳性(比如“护士”分男护士和女护士)。研究人员把病历里的这些词全部“中性化”了。比如把“护士”改成“男护士/女护士”这种不区分性别的写法,或者只保留“是/否”的信息。
  • 任务:给 AI 看这些被“清洗”过、看不出性别的信息,然后问它:“你觉得这个人是男是女?”

3. 实验发现:AI 的“刻板印象”藏不住

研究人员测试了 9 个不同的 AI 模型(包括 Llama、Qwen、Mistral 等),结果发现:

  • AI 真的在“猜”性别:即使没有明显的性别词,AI 依然能根据“职业”、“婚姻状况”等线索,强烈地猜出性别。
  • 职业是最大的“破绽”
    • 如果 AI 看到“退休”、“吸烟”、“喝酒”,它倾向于猜是男性
    • 如果看到“学生”、“家庭主妇”,它倾向于猜是女性
    • 如果看到“工人”,它猜是男性;如果看到“职员”,它猜是女性
    • 比喻:这就像 AI 脑子里有一本“社会刻板印象字典”,只要看到“工人”这个词,它就自动翻到“男性”那一页。
  • 小模型更“武断”:参数量较小的模型(比如 80 亿参数的)往往比大模型(700 亿参数)更自信,也更固执地依赖这些刻板印象。
  • 医疗专用模型也没好到哪去:即使是专门用医疗数据训练过的 AI,依然保留了这些偏见,甚至有时候比通用模型偏见更重。

4. 人和 AI 谁更“刻板”?

研究人员还找了一群大学生来做同样的测试。

  • 结果惊人:人类和 AI 的“脑补”逻辑非常相似!
  • 人类看到“工人”也倾向于认为是男性,看到“家庭主妇”认为是女性。
  • 结论:AI 并没有发明新的偏见,它只是忠实地(甚至夸张地)反映了人类社会中已经存在的刻板印象。它就像一面镜子,照出了我们社会的偏见。

5. 这意味着什么?(给未来的建议)

这篇论文告诉我们几个重要的道理:

  1. 不能盲目信任 AI:在医疗这种严肃的领域,AI 可能会因为“想当然”的偏见而给出错误的诊断建议。
  2. 大模型也不完美:虽然大模型更聪明、更稳定,但它们依然无法完全摆脱训练数据中的偏见。
  3. 如何补救?
    • 提示词工程:研究人员发现,如果明确告诉 AI“请忽略语言中的性别暗示”,有些 AI 会听话(虽然有些会直接拒绝回答)。
    • 持续监控:我们需要像医生检查病人一样,定期检查 AI 的“偏见指标”。
    • 现实态度:作者承认,完全消除偏见的 AI 可能永远不存在,因为它是从人类不完美的数据中学来的。我们现在的目标应该是管理风险,让 AI 的偏见至少不要超过人类医生的水平。

总结

这就好比我们在教一个刚出生的 AI 婴儿认识世界。如果它看到的书里充满了“男医生、女护士”、“男工人、女家庭主妇”的刻板画面,它长大后自然也会这么想。

这篇论文就是给这些 AI 做了一次“偏见体检”,告诉我们:在把 AI 请进医院之前,我们必须先帮它洗洗脑,或者至少时刻盯着它,别让它带着偏见去给病人看病。