What Are They Filtering Out? An Experimental Benchmark of Filtering Strategies for Harm Reduction in Pretraining Datasets

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI（大規模言語モデル）を安全にするために、学習データから『悪いもの』を削除しようとしたら、逆に『特定のグループの人々』がデータから消えてしまい、偏りがひどくなってしまった」**という、皮肉な発見を報告する研究です。

まるで**「お掃除ロボットが部屋を綺麗にしようとして、大切な家族の写真を誤って捨ててしまった」**ような話です。

以下に、専門用語を避け、身近な例えを使ってわかりやすく解説します。

🧹 1. 背景：AI の「お掃除」作戦

AI は、インターネット上の膨大な文章（本、ニュース、ブログなど）を食べて学習します。しかし、インターネットには「差別」「暴言」「ヘイトスピーチ」などの「ゴミ」も混ざっています。
そこで研究者たちは、**「AI が毒を飲まないように、学習データからゴミをフィルタリング（選別）して取り除こう」**と頑張ってきました。

従来の考え方： 「汚い言葉（毒）が入っている文章は、全部捨てちゃおう！」
この論文の疑問： 「でも、その『ゴミ取り』の作業が、逆に『特定の人の写真』まで一緒に捨ててしまっていないか？」

🔍 2. 調査：55 社の「お掃除マニュアル」をチェック

著者たちは、世界中の AI 開発者が公開している技術レポート 55 件を調べました。

発見 1： 多くの会社が「ゴミ取り」の方法を詳しく教えていません（ブラックボックス化しています）。
発見 2： 「ゴミ取り」の方法は様々です。
- ルールベース： 「『死ね』という単語が含まれたら捨てる」というリストを作る方法。
- AI 判定： 「この文章は毒っぽいか？」と別の AI に判断させる方法。
- 品質チェック： 「ウィキペディアのような高品質なサイトから取ってきた文章だけ残す」方法。

🧪 3. 実験：7 つの「お掃除方法」を試してみる

著者たちは、実際のインターネットデータ（Common Crawl）を使って、7 つの異なるフィルタリング方法を試しました。
そして、**「誰の名前（人物）が、どのくらい削除されてしまったか」**を数えました。
ここでは、人物を 4 つのグループに分けて分析しました。

西洋の男性
西洋の女性
植民地支配を受けた国出身の男性
植民地支配を受けた国出身の女性

📉 驚きの結果：「女性」が最も消えていた

どのフィルタリング方法を使っても、「女性」の名前が「男性」よりも圧倒的に多く削除されていました。

ルールベース（単語リスト）の場合：
- 「セックス」や「ポルノ」に関連する単語を消そうとした結果、「女優」や「モデル」という職業の女性が大量に消えてしまいました。
- 逆に、男性の「政治家」や「作家」はあまり消えませんでした。
- 例え： 「汚い言葉」を消そうとして、結果的に「女性だけの写真」がゴミ箱に捨てられた状態です。
AI 判定（毒性判定）の場合：
- これも女性の名前が男性より多く消えました。
品質チェック（高品質サイトだけ残す）の場合：
- これは「毒」を消す効果はあまりありませんでした。むしろ、「男性」の名前の方が多く消えてしまいました。
- 例え： 「高品質な本」だけを集めようとしたら、結果的に「男性の活躍が書かれた本」ばかり残って、「女性の活躍」が書かれた本（あるいは、女性が活躍する分野の記述）が「質が低い」と判断されて捨てられてしまったようです。

💡 4. 重要な教訓：「安全」と「公平」は両立しない？

この研究が伝えたかった最も重要なメッセージはこれです。

「『悪いもの（毒）』を取り除こうとすると、必ず『誰か（特定のグループ）』が犠牲になる」

ある方法を選べば： 人種差別の言葉は消えるが、女性の記述が減る。
別の方法を選べば： 暴力表現は消えるが、特定の国の人の記述が減る。

つまり、「万能な掃除機」は存在しないのです。どの方法を選んでも、特定のグループ（特に女性）がデータから「見えない（存在しない）」状態にされてしまい、AI が偏った知識しか持たないリスクが高まります。

🏁 5. 結論と今後の課題

現状： 多くの AI 開発者は、「安全にする」ことには熱心ですが、「誰が犠牲になっているか」を気にしていません。
問題： 現在のフィルタリングは、「女性」や「特定の背景を持つ人々」をデータから消し去り、AI が偏見を持ってしまう原因を作っている可能性があります。
提言： 今後は、単に「悪い言葉」を消すだけでなく、「誰の名前が消えてしまったか」を常にチェックし、「偏り」を修正する新しいフィルタリング技術が必要だと主張しています。

🌟 まとめ（一言で言うと）

「AI を安全にするために『悪い言葉』を掃除しようとしたら、気づかないうちに『女性』や『特定の国の人の写真』まで一緒に捨ててしまい、AI の知識が偏ってしまいました。『安全』と『公平さ』のバランスを取るには、もっと慎重な掃除の仕方が必要です」

What Are They Filtering Out? An Experimental Benchmark of Filtering Strategies for Harm Reduction in Pretraining Datasets

🧹 1. 背景：AI の「お掃除」作戦

🔍 2. 調査：55 社の「お掃除マニュアル」をチェック

🧪 3. 実験：7 つの「お掃除方法」を試してみる

📉 驚きの結果：「女性」が最も消えていた

💡 4. 重要な教訓：「安全」と「公平」は両立しない？

🏁 5. 結論と今後の課題

🌟 まとめ（一言で言うと）

1. 問題定義 (Problem)

2. 手法 (Methodology)

A. 文献調査 (Systematic Survey)

B. 実験的ベンチマーク (Experimental Benchmark)

3. 主要な貢献 (Key Contributions)

4. 結果 (Results)

A. 除去されるコンテンツの量と種類

B. 誰がフィルタリングされるか（脆弱な集団への影響）

5. 意義と結論 (Significance & Conclusion)

What Are They Filtering Out? An Experimental Benchmark of Filtering Strategies for Harm Reduction in Pretraining Datasets

🧹 1. 背景：AI の「お掃除」作戦

🔍 2. 調査：55 社の「お掃除マニュアル」をチェック

🧪 3. 実験：7 つの「お掃除方法」を試してみる

📉 驚きの結果：「女性」が最も消えていた

💡 4. 重要な教訓：「安全」と「公平」は両立しない？

🏁 5. 結論と今後の課題

🌟 まとめ（一言で言うと）

1. 問題定義 (Problem)

2. 手法 (Methodology)

A. 文献調査 (Systematic Survey)

B. 実験的ベンチマーク (Experimental Benchmark)

3. 主要な貢献 (Key Contributions)

4. 結果 (Results)

A. 除去されるコンテンツの量と種類

B. 誰がフィルタリングされるか（脆弱な集団への影響）

5. 意義と結論 (Significance & Conclusion)

関連論文

Recursive Language Models Meet Uncertainty: The Surprising Effectiveness of Self-Reflective Program Search for Long Context

MedArena: Comparing LLMs for Medicine-in-the-Wild Clinician Preferences

MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification

Morphemes Without Borders: Evaluating Root-Pattern Morphology in Arabic Tokenizers and LLMs

COGNAC at SemEval-2026 Task 5: LLM Ensembles for Human-Level Word Sense Plausibility Rating in Challenging Narratives