Investigating Disability Representations in Text-to-Image Models

Each language version is independently generated for its own context, not a direct translation.

🪞 1. 実験の舞台：AI という「絵描き」

最近、テキスト（言葉）を入力するだけで、美しい絵を描いてくれる AI（Stable Diffusion や DALL·E 3 など）が人気です。でも、この AI はインターネットから大量の絵と文章を学習して作られています。つまり、「インターネットという巨大な図書館」にどんな本（偏見やステレオタイプ）が並んでいるかによって、AI の描く絵も決まってしまうのです。

研究者たちは、この AI が「障害のある人」をどう描くか、2 つの大きな実験を行いました。

🎨 実験 1：「障害のある人」と言うと、どんな絵が浮かぶ？

【問い】
AI に「障害のある人の写真」とだけ頼んだら、どんな絵が出てくるでしょうか？

【結果：車椅子が「お決まり」の顔】
AI に「障害のある人」とだけ指示すると、**「車椅子に乗っている人」**の絵が圧倒的に多く出てきました。

盲（目が見えない）や難聴（耳が聞こえない）の人は、あまり描かれませんでした。
これは、AI が「障害＝車椅子」という**「一番わかりやすい（でも偏った）イメージ」**を默认（デフォルト）として持っていることを示しています。
例え話： 就像「料理」と言われて「ラーメン」しか出てこない店のようなものです。実際には「寿司」や「パスタ」もあるのに、AI は「障害」と聞くと自動的に「車椅子」を選んでしまうのです。

🎭 実験 2：AI の「お守り（対策）」は効いているか？

【問い】
開発者が「偏りを出さないように」と対策を施した AI（DALL·E 3）と、対策が緩い AI（Stable Diffusion）では、描き方がどう変わるでしょうか？

【結果：対策は「二面性」を持っていた】

身体・感覚の障害（車椅子や盲など）：
どちらの AI も、明るい場所や笑顔の人を描く傾向がありました。これは良いことです。
心の病気（うつ病や不安障害など）：
ここが問題でした。
- 自動分析（AI が絵を見て判断）： 「Stable Diffusion の方がネガティブな絵が多い」と言いました。
- 人間の評価（人が絵を見て判断）： **「DALL·E 3 の方が、もっと暗く悲しげに見える！」**と言いました。

【なぜこうなった？】

Stable Diffusion： 対策が緩いので、単純に「悲しそうな顔」を描くことが多かったです。
DALL·E 3： 対策を施したおかげで、単なる「悲しい顔」ではなく、**「暗い部屋で一人ぼっち」「背景が暗い」といった、より深く、しかし「不幸せな状況」**を強調する絵を描いてしまいました。
例え話：
- 対策をしていない AI は、「悲しい顔」を描く**「素人の画家」**。
- 対策をした AI は、「悲しい顔」を描くのを避けた代わりに、**「暗い部屋で孤独な雰囲気」を完璧に演出する「プロの演出家」**になりました。
- 結果として、対策をした AI の方が、人間の目には「もっと可哀想でネガティブ」に見えてしまったのです。

💡 重要な発見：AI は「中立」ではない

この研究からわかったことは、AI は単なる機械ではなく、**「社会の偏見を学習し、時にはそれを強化してしまう存在」**だということです。

偏りの固定化： 「障害」と言うと「車椅子」しか思い浮かべないのは、社会がそう思い込んでいるからです。AI はそれをそのまま反映しています。
対策のジレンマ： 開発者が「偏りをなくそう」と対策をしても、それが逆に**「特定の障害（心の病気）をより悲劇的に描く」**という、新しい偏りを作ってしまう可能性があります。
人間と AI のズレ： AI が「ネガティブ」と判断する基準と、人間が「悲しげに見える」と感じる基準は違います。AI の分析だけでは、本当の「雰囲気」や「文脈」は捉えきれません。

🌟 結論：もっと多様な世界を描くために

この論文は、AI が作る絵は「中立」ではなく、**「学習データという鏡に映った社会の姿」**であることを示しました。

より公平で、多様な障害の描き方を AI にさせるためには、単に技術的な「お守り」を付けるだけでなく、「障害のある人自身」の声を聞いて、AI が何を「悲劇」として描いているのか、その「文脈」を正しく理解させることが不可欠だと結論付けています。

一言で言うと：
「AI に『障害のある人』を描かせると、車椅子の人しか出てこないし、心の病気を描かせると、暗い部屋で一人ぼっちの悲劇の主人公ばかり描いてしまう。AI をもっと良くするには、技術だけでなく、人間の多様な体験を教える必要がある！」というメッセージです。

Investigating Disability Representations in Text-to-Image Models

🪞 1. 実験の舞台：AI という「絵描き」

🎨 実験 1：「障害のある人」と言うと、どんな絵が浮かぶ？

🎭 実験 2：AI の「お守り（対策）」は効いているか？

💡 重要な発見：AI は「中立」ではない

🌟 結論：もっと多様な世界を描くために

論文「テキストから画像への生成モデルにおける障害の表象の調査」の技術的サマリー

1. 問題定義 (Problem)

2. 手法 (Methodology)

実験 1: 障害表象の偏りの検出

実験 2: 緩和策の影響と感情フレームの分析

3. 主要な貢献 (Key Contributions)

4. 結果 (Results)

実験 1 の結果（類似度分析）

実験 2 の結果（感情フレーム分析）

5. 意義と結論 (Significance & Conclusion)

Investigating Disability Representations in Text-to-Image Models

🪞 1. 実験の舞台：AI という「絵描き」

🎨 実験 1：「障害のある人」と言うと、どんな絵が浮かぶ？

🎭 実験 2：AI の「お守り（対策）」は効いているか？

💡 重要な発見：AI は「中立」ではない

🌟 結論：もっと多様な世界を描くために

論文「テキストから画像への生成モデルにおける障害の表象の調査」の技術的サマリー

1. 問題定義 (Problem)

2. 手法 (Methodology)

実験 1: 障害表象の偏りの検出

実験 2: 緩和策の影響と感情フレームの分析

3. 主要な貢献 (Key Contributions)

4. 結果 (Results)

実験 1 の結果（類似度分析）

実験 2 の結果（感情フレーム分析）

5. 意義と結論 (Significance & Conclusion)

関連論文

GeoBlock: Inferring Block Granularity from Dependency Geometry in Diffusion Language Models

AlpsBench: An LLM Personalization Benchmark for Real-Dialogue Memorization and Preference Alignment

The Cognitive Divergence: AI Context Windows, Human Attention Decline, and the Delegation Feedback Loop

Do Multilingual VLMs Reason Equally? A Cross-Lingual Visual Reasoning Audit for Indian Languages

LogicDiff: Logic-Guided Denoising Improves Reasoning in Masked Diffusion Language Models