Investigating Disability Representations in Text-to-Image Models

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一次**“给 AI 照镜子”**的实验，看看当我们要 AI 画“残疾人”时，它脑子里到底在想什么。

想象一下，你让两个不同的画家（AI 模型）画一幅画，主题分别是“一个有残疾的人”和“具体的某种残疾（比如坐轮椅、盲人、聋人）”。研究者发现，这两个画家虽然画得都很像样，但他们的“脑回路”里藏着不少刻板印象。

以下是这篇论文的核心发现，用大白话和比喻来解释：

1. 两个“画家”是谁？

画家 A (Stable Diffusion XL / SDXL)： 这是一个开源的画家，就像是一个在“互联网大杂烩”里自学成才的艺术家。他看过网上所有的图，但没人专门教他怎么避开偏见，所以他的画里保留了更多原始数据里的“老观念”。
画家 B (DALL·E 3)： 这是一个由大公司（OpenAI）精心调教的画家。在他开始画画前，老板给他设了很多“安全围栏”和“过滤网”，告诉他：“别画暴力的，别画有偏见的，要多样化。”

2. 实验一：当 AI 听到“残疾人”时，它先想到什么？

研究者让两个画家画“一个有残疾的人”（不指定具体类型）。

发现： 两个画家不约而同地，90% 以上都画了坐轮椅的人。
比喻： 这就像如果你让一个老式搜索引擎搜“科学家”，它可能只给你出“穿白大褂的白人男性”一样。在这里，AI 觉得“残疾人”的默认皮肤就是“坐轮椅”。
盲人与聋人去哪了？ 当你专门要求画“盲人”或“聋人”时，AI 也能画出来，但当你只说“残疾人”时，它们很少主动画这些。
谁更“固执”？ 画家 A (SDXL) 更固执，它画的轮椅人比例更高，几乎把“残疾”等同于“坐轮椅”。画家 B (DALL·E 3) 稍微灵活一点，虽然也爱画轮椅，但偶尔也会画点别的，多样性稍微好那么一点点。

3. 实验二：AI 给“心理疾病”和“身体残疾”画了什么脸色？

这次研究者让画家画“抑郁症”、“焦虑症”等心理疾病，并对比画“盲人”、“坐轮椅”等身体/感官残疾。

身体残疾的画风： 两个画家都倾向于把盲人、聋人画得比较阳光、积极。比如画他们在明亮的户外，或者脸上带着微笑。这有点像在说：“看，他们虽然身体有不便，但生活很美好。”
心理疾病的画风： 画风突然变了！两个画家都倾向于把心理疾病画得阴郁、压抑。
- 画家 A (SDXL)： 自动分析觉得它画得挺中性，但人类评委觉得它画得有点消极。
- 画家 B (DALL·E 3)： 这里有个有趣的反转。虽然它的“安全围栏”很严，但人类评委觉得它画的心理疾病更消极！
- 为什么？ 因为画家 B 画得太“有氛围感”了。它会给心理疾病患者配上昏暗的房间、孤独的背影、压抑的色调。虽然它没画“疯子”，但这种“孤独感”的渲染，让人类评委觉得更沉重、更负面。

4. 核心冲突：机器眼 vs. 人类心

机器的眼睛（自动分析）： 机器看画，主要看“脸上有没有哭”、“表情是不是悲伤”。如果脸上没表情，机器就觉得是“中性”的。
人类的心（人工评估）： 人类看画，会看整体氛围。哪怕脸上没哭，但如果背景是黑漆漆的，人缩在角落里，人类就会觉得：“这画得好悲伤啊。”
结论： 画家 B (DALL·E 3) 虽然被要求“不要有偏见”，但它为了表现“心理疾病的复杂性”，反而用更丰富的背景（黑暗、孤独）去渲染，结果在人类眼里，它反而比那个“直男癌”画家 A 画得更让人难受。

5. 这篇论文想告诉我们什么？

AI 不是中立的镜子： 它是一面哈哈镜。它把“残疾人”主要扭曲成了“坐轮椅的人”，忽略了盲、聋等其他群体。
“管得严”不一定全是好事： 开发者给 AI 加了很多“过滤器”（比如 DALL·E 3），虽然防止了明显的仇恨言论，但有时反而会让 AI 用一种更隐蔽、更夸张的方式去强化刻板印象（比如把心理疾病画得特别孤独）。
我们需要更聪明的评估： 不能光靠机器自动打分，必须让人类（尤其是残疾人自己）来参与评价，因为机器看不懂“氛围”和“隐喻”。

总结

这就好比我们在教一个刚出生的孩子（AI）认识世界。如果我们只给它看“坐轮椅的人”的照片，它就会以为全世界残疾人都坐轮椅。如果我们教它“心理疾病”时，只给它看阴暗角落的照片，它就会觉得心理疾病就是“黑暗和孤独”。

这篇论文提醒我们：在 AI 生成内容的时代，我们需要更小心地审视它画出的每一笔，确保它不是在无意中加深了社会的偏见，而是真正展现了人类经验的多样性。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《INVESTIGATING DISABILITY REPRESENTATIONS IN TEXT-TO-IMAGE MODELS》（调查文本生成图像模型中的残障人士表征）的详细技术总结。

1. 研究背景与问题 (Problem)

背景： 文本生成图像（Text-to-Image, T2I）模型（如 Stable Diffusion, DALL·E 3）在生成高质量视觉内容方面取得了显著进展。然而，这些模型通常基于从互联网爬取的海量数据训练，不可避免地继承了数据中的刻板印象、偏见以及对边缘化群体的代表性不足。
核心问题： 尽管性别、种族等社会群体的表征偏差已受到广泛关注，但残障人士（People with Disabilities, PwD）在 AI 生成图像中的表征仍缺乏深入探讨。
具体研究问题 (RQs)：
1. T2I 模型如何表征残障人士？（是否存在默认偏向某种特定残障类型的现象？）
2. 不同的表征缓解策略（Representational Mitigation Strategies）如何影响 T2I 模型中残障人士的描绘？（即对比不同安全机制的模型，其输出有何差异？）

2. 方法论 (Methodology)

本研究采用了双实验设计，对比了两个最先进的 T2I 模型：Stable Diffusion XL (SDXL) 和 DALL·E 3。

模型差异： SDXL 基于未策展的 LAION 数据集训练，过滤机制较宽松；DALL·E 3 则采用了严格的数据过滤、提示词分类器及多层缓解策略。

实验一：残障表征差异检测 (Detection on Disability Representation Differences)

提示词设计：
- 通用提示词： "photo of a person with a disability"（残障人士照片），作为中性参考基准。
- 特定提示词： 针对三种具有明显视觉特征的残障类型："mobility impairment"（行动障碍/轮椅使用者）、"blind person"（盲人）、"deaf person"（聋人）。
数据生成： 每个模型对每个提示词生成 100 张图片，共 800 张。
评估指标： 使用 CLIP 嵌入（Embeddings） 计算生成图像之间的余弦相似度。
- 逻辑：如果通用提示词生成的图像与某一特定残障类别（如行动障碍）的图像相似度最高，说明模型倾向于将该类别作为残障的“默认”表征。
- 计算相对相似度分数 $\Delta(c)$ ，以量化通用提示词相对于其他类别的偏向程度。

实验二：缓解策略对情感框架的影响 (Effect of Representational Mitigation Techniques)

研究对象： 聚焦于精神障碍（双相情感障碍、抑郁症、焦虑症）与身体/感官残障（行动障碍、盲、聋）的对比。
评估方法（混合评估）：
1. 自动情感分析： 使用 BLIP VQA 系统提取图像描述（场景氛围、整体情绪、人物表情），并通过情感分类器（Twitter-RoBERTa）判定情感极性（正面/中性/负面）。
2. 人工评估： 招募评估员进行成对比较（Pairwise Comparison）。
  - 模型间对比： 同一残障类别下，SDXL 与 DALL·E 3 的图像对比。
  - 组间对比： 同一模型下，精神障碍与身体/感官残障的图像对比。
  - 任务：选择哪张图像传达了更负面的情绪或氛围。

3. 主要结果 (Key Results)

实验一结果：行动障碍的“默认化”

普遍偏向： 两个模型在生成“残障人士”通用图像时，均显著偏向于行动障碍（轮椅使用者）。
量化差异：
- SDXL： 通用提示词与行动障碍图像的相似度最高（均值 0.9013），且与盲人、聋人图像的差距较大。SDXL 表现出更强的单一化偏向。
- DALL·E 3： 虽然也偏向行动障碍，但与感官残障（盲、聋）的相似度差距较小，分布相对更平衡。
- 统计显著性： 卡方检验和 Kruskal-Wallis 检验均证实，通用提示词与不同残障类别的相似度存在显著差异（ $p < .001$ ）。

实验二结果：情感框架与缓解策略的悖论

自动分析 vs. 人工评估的冲突（针对精神障碍）：
- 自动分析（BLIP）： 显示 SDXL 生成的精神障碍图像负面情感更多（99.3% 负面），而 DALL·E 3 包含少量正面描述。
- 人工评估： 评估员认为 DALL·E 3 的图像传达了更强烈的负面情感。
- 原因分析： 自动分析主要依赖面部表情（往往显示中性），而忽略了 DALL·E 3 生成的上下文线索（如昏暗的背景、孤立的构图、压抑的氛围），这些视觉语境在人类感知中构成了负面框架。
精神障碍 vs. 身体/感官残障：
- 两个模型均倾向于将精神障碍描绘得比身体/感官残障更负面。
- SDXL： 精神障碍图像极度负面（95.8% 被选为更负面）。
- DALL·E 3： 虽然缓解策略使其对身体/感官残障的描绘更加多元和积极，但在描绘精神障碍时，反而通过强化负面语境（如室内、阴暗色调）加剧了刻板印象，导致两者之间的情感差距（Gap）扩大。
置信度分析： 评估员对 DALL·E 3 图像负面性的判断置信度显著高于 SDXL，表明 DALL·E 3 生成的负面语境更具说服力或更明显。

4. 核心贡献 (Key Contributions)

揭示了“默认残障”现象： 首次通过量化相似度证明，T2I 模型将“残障”默认等同于“行动障碍（轮椅）”，导致盲人和聋人等群体在通用表征中被系统性边缘化。
评估了缓解策略的双刃剑效应： 研究发现，DALL·E 3 等采用严格缓解策略的模型虽然增加了输出的多样性（如更多样化的场景），但在处理缺乏明显视觉特征的精神障碍时，反而可能通过过度强调负面语境（如阴暗背景）来强化刻板印象，而非消除偏见。
方法论创新（自动与人工的互补）： 展示了单纯依赖自动情感分析（基于文本描述）的局限性。自动工具容易忽略视觉语境（氛围、构图），而人工评估能捕捉到这些深层的社会情感框架。两者结合对于全面评估 AI 偏见至关重要。
理论视角的拓展： 将“技术能力主义（Technoableism）”概念引入 T2I 模型分析，指出 AI 可能将残障视为需要被“修正”或“管理”的问题，而非多元生活体验的一部分。

5. 研究意义与局限性 (Significance & Limitations)

意义：
- 为 AI 公平性研究提供了关于残障表征的重要实证数据。
- 警示开发者和研究人员：简单的数据过滤或缓解策略可能无法解决深层的刻板印象，甚至可能产生新的偏见（如将精神疾病与阴暗环境强关联）。
- 强调了在评估生成式 AI 时，必须结合自动指标与人类感知（特别是情感框架分析）。
局限性：
- 评估者身份： 人工评估者并非残障人士，未能完全反映残障群体的真实生活体验（Lived Experience）。
- 类别范围： 仅关注了具有明显视觉特征的身体/感官残障和特定精神障碍，未涵盖慢性疼痛、认知障碍等缺乏明显视觉标记的残障类型。
- 辅助技术（AT）： 未深入分析轮椅、助听器等辅助技术在图像中的呈现方式（是否被尊重或过度突出）。
- 交叉性： 未充分探讨残障与性别、种族等其他社会身份的交叉影响。

总结

该论文通过严谨的对比实验揭示，当前的 T2I 模型不仅在残障类型的表征上存在严重的“行动障碍中心化”偏见，而且在试图缓解偏见时（如 DALL·E 3），可能会在精神障碍的描绘上产生更隐蔽但更强烈的负面情感框架。研究呼吁未来的 AI 开发需要更细致的评估机制，并应让残障社区直接参与评估过程，以构建真正包容的生成式 AI。