What Are They Filtering Out? An Experimental Benchmark of Filtering Strategies for Harm Reduction in Pretraining Datasets

Each language version is independently generated for its own context, not a direct translation.

🍎 Le Titre : "Ce qu'on jette, c'est souvent ce qu'on aime"

Imaginez que vous voulez faire une énorme soupe (c'est le modèle d'intelligence artificielle, ou LLM) avec des ingrédients venant de partout sur Internet (c'est les données d'entraînement).

Le problème ? Cette soupe contient parfois des choses toxiques : du poison, des insultes, des idées racistes ou sexistes. Pour rendre la soupe comestible, les chefs (les chercheurs) doivent filtrer les ingrédients avant de les mettre dans la marmite.

Ce papier pose une question cruciale : Quand on enlève les "mauvais" ingrédients, est-ce qu'on ne jette pas aussi par erreur des personnes vulnérables ?

🔍 La Grande Enquête (Ce qu'ils ont fait)

Les auteurs ont fait deux choses principales :

Le Recensement (La liste des recettes) :
Ils ont lu 55 rapports techniques de différentes entreprises et laboratoires qui créent ces intelligences artificielles. Ils voulaient savoir : "Comment vous nettoyez vos données ?"
- Résultat : C'est un peu le chaos. Certains utilisent des listes de mots interdits (comme un filtre à café), d'autres utilisent des robots qui jugent si un texte est "toxique", et d'autres encore ne disent tout simplement pas comment ils procèdent.
- Le constat triste : Beaucoup de géants de la tech ne partagent plus leurs méthodes de nettoyage. C'est comme si un chef disait : "Ma soupe est délicieuse et sans poison, mais je ne vous dirai jamais comment je l'ai faite."
L'Expérience (Le test en cuisine) :
Ils ont pris un échantillon de données réelles (des textes d'Internet) et ils ont appliqué 7 méthodes de filtrage différentes pour voir ce qui disparaissait. Ils se sont surtout intéressés à qui était touché : les hommes, les femmes, les gens du "monde occidental" (Europe/USA) et les gens des "mondes post-coloniaux" (anciennes colonies).

📉 Les Résultats Surprenants (Ce qu'ils ont découvert)

Voici les trois découvertes principales, expliquées avec des images :

1. Le Filtre "Ciseaux" (Les stratégies basées sur des règles)

Imaginez un couteau qui coupe tout ce qui ressemble à des mots grossiers ou à de la pornographie.

Ce qui se passe : Ce crible est très efficace pour enlever les gros mots, mais il est très injuste envers les femmes.
L'analogie : C'est comme si vous nettoyiez un jardin en arrachant toutes les fleurs roses parce qu'elles ressemblent à des choses "sales" dans votre tête. Résultat : il ne reste presque plus de femmes dans le texte. Les femmes sont les premières victimes de ce nettoyage.
Le détail cruel : Les femmes dont on parle le plus souvent après le filtrage sont souvent celles associées à la pornographie ou au travail du sexe, ce qui crée un biais terrible : on ne parle plus des femmes politiques ou scientifiques, mais surtout des femmes "à problèmes".

2. Le Filtre "Qualité" (La comparaison avec des livres célèbres)

Certains chefs disent : "Je ne garde que les textes qui ressemblent à Wikipédia ou à des livres célèbres."

Ce qui se passe : Ils pensent que c'est "sûr" et "propre".
La révélation : C'est un piège ! Ils ont découvert que ce n'est pas parce que c'est "propre" que c'est "sans poison".
L'analogie : Imaginez que vous ne gardez que les livres écrits par des hommes blancs occidentaux parce que c'est "de la haute qualité". Vous enlevez par erreur beaucoup de textes d'hommes (parce qu'ils parlent de sujets "moins académiques"), mais vous laissez passer énormément de contenus toxiques et racistes qui sont pourtant écrits dans un "bon français".
Conclusion : La "qualité" n'est pas un gage de sécurité.

3. Le Choix du Filtre change la réalité

C'est le point le plus important : Choisir un filtre, c'est choisir une réalité.

Si vous utilisez un filtre qui chasse les insultes racistes, vous risquez d'enlever des textes sur la communauté noire.
Si vous utilisez un filtre qui chasse la pornographie, vous risquez d'enlever des textes sur les femmes.
Métaphore : C'est comme si vous aviez un tamis pour attraper les poissons. Si vous choisissez un tamis avec des trous très fins, vous attrapez les petits poissons (les insultes) mais vous laissez échapper les gros (les idées toxiques subtiles). Si vous choisissez un tamis différent, c'est l'inverse. Il n'existe pas de filtre magique qui enlève tout le mal sans enlever des gens innocents.

💡 La Conclusion en une phrase

Les chercheurs disent : "En essayant de rendre nos intelligences artificielles plus sûres en nettoyant leurs données, nous risquons de les rendre plus aveugles et injustes envers les femmes et les minorités."

Ils appellent à arrêter de faire du "nettoyage à l'aveugle". Il faut être plus précis, plus transparent, et surtout, écouter les communautés concernées pour savoir ce qui est vraiment dangereux, au lieu de simplement supprimer des mots au hasard.

En résumé : On essaie de nettoyer la maison, mais on finit par jeter les meubles les plus fragiles (les personnes vulnérables) en pensant qu'ils sont sales, alors qu'ils sont juste différents.

What Are They Filtering Out? An Experimental Benchmark of Filtering Strategies for Harm Reduction in Pretraining Datasets

🍎 Le Titre : "Ce qu'on jette, c'est souvent ce qu'on aime"

🔍 La Grande Enquête (Ce qu'ils ont fait)

📉 Les Résultats Surprenants (Ce qu'ils ont découvert)

1. Le Filtre "Ciseaux" (Les stratégies basées sur des règles)

2. Le Filtre "Qualité" (La comparaison avec des livres célèbres)

3. Le Choix du Filtre change la réalité

💡 La Conclusion en une phrase

1. Problématique

2. Méthodologie

A. Revue de littérature (RQ1)

B. Expérience de Benchmarking (RQ2)

3. Contributions Clés

4. Résultats Principaux

A. État de l'art et Transparence

B. Impact Quantitatif du Filtrage

C. Impact Démographique (Qui est filtré ?)

5. Signification et Conclusion

What Are They Filtering Out? An Experimental Benchmark of Filtering Strategies for Harm Reduction in Pretraining Datasets

🍎 Le Titre : "Ce qu'on jette, c'est souvent ce qu'on aime"

🔍 La Grande Enquête (Ce qu'ils ont fait)

📉 Les Résultats Surprenants (Ce qu'ils ont découvert)

1. Le Filtre "Ciseaux" (Les stratégies basées sur des règles)

2. Le Filtre "Qualité" (La comparaison avec des livres célèbres)

3. Le Choix du Filtre change la réalité

💡 La Conclusion en une phrase

1. Problématique

2. Méthodologie

A. Revue de littérature (RQ1)

B. Expérience de Benchmarking (RQ2)

3. Contributions Clés

4. Résultats Principaux

A. État de l'art et Transparence

B. Impact Quantitatif du Filtrage

C. Impact Démographique (Qui est filtré ?)

5. Signification et Conclusion

Articles similaires

Recursive Language Models Meet Uncertainty: The Surprising Effectiveness of Self-Reflective Program Search for Long Context

MedArena: Comparing LLMs for Medicine-in-the-Wild Clinician Preferences

MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification

Morphemes Without Borders: Evaluating Root-Pattern Morphology in Arabic Tokenizers and LLMs

COGNAC at SemEval-2026 Task 5: LLM Ensembles for Human-Level Word Sense Plausibility Rating in Challenging Narratives