What Are They Filtering Out? An Experimental Benchmark of Filtering Strategies for Harm Reduction in Pretraining Datasets

Dit artikel presenteert een benchmarkstudie die aantoont dat hoewel filterstrategieën voor het trainen van taalkundige modellen schadelijke inhoud effectief verminderen, dit als neveneffect leidt tot een verdere ondervertegenwoordiging van kwetsbare groepen in de datasets.

Marco Antonio Stranisci, Christian Hardmeier

Gepubliceerd 2025-02-17
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

🧹 De Grote Schoonmaak: Waarom "Veilig" Maken van AI soms onrechtvaardig is

Stel je voor dat je een gigantische bibliotheek wilt bouwen om een superintelligente robot (een AI) te leren lezen en schrijven. Deze bibliotheek bestaat uit miljoenen boeken, artikelen en webpagina's uit de hele wereld. Dit noemen we het trainingsdataset.

Het probleem? In deze bibliotheek staan ook veel vervelende dingen: haatzaaiende teksten, racistische opmerkingen en seksueel expliciete inhoud. De makers van de AI willen deze "vuilnis" eruit halen zodat de robot niet leert om gemeen te zijn. Dit proces noemen ze filteren.

De auteurs van dit papier (Marco en Christian) hebben zich afgevraagd: "Wat gebeurt er eigenlijk als we deze grote schoonmaak uitvoeren? Verwijderen we alleen het vuil, of gooien we per ongeluk ook waardevolle boeken weg?"

🔍 Wat hebben ze onderzocht?

Ze hebben twee grote vragen beantwoord:

  1. Welke methodes gebruiken mensen? Ze hebben 55 technische rapporten van grote AI-modellen bekeken. Ze ontdekten dat er 8 verschillende manieren zijn om te filteren.
    • Vergelijking: Het is alsof je 8 verschillende soorten bezems hebt. Sommige bezems vegen alleen grote steentjes weg (woordenlijsten met scheldwoorden), andere gebruiken een scanner die "slechte" zinnen herkent (AI-classificatoren), en weer anderen kijken alleen naar de "kwaliteit" van het papier (is het een Wikipedia-artikel of een willekeurige blog?).
  2. Wie wordt er per ongeluk verwijderd? Ze hebben gekeken of deze schoonmaakmethoden bepaalde groepen mensen uit de bibliotheek laten verdwijnen. Ze hebben specifiek gekeken naar mannen en vrouwen, en naar mensen uit het Westen versus mensen uit voormalige koloniën (bijv. Afrikaanse of Aziatische achtergronden).

📉 De Verbluffende Resultaten

Hier komt het vervelende nieuws, verteld als een verhaal:

1. De "Kwaliteits"-bezem is gevaarlijk
Sommige makers zeggen: "We houden alleen teksten van hoge kwaliteit, zoals Wikipedia."

  • Het resultaat: Dit werkt heel goed om teksten te verwijderen, maar het is een slechte manier om "gevaarlijke" teksten te vinden.
  • De metafoor: Stel je voor dat je alleen de beste, duurste boeken in de bibliotheek houdt. Je denkt dat die veilig zijn. Maar het blijkt dat de "vuile" teksten (haat, racisme) vaak ook in die dure boeken staan. Je verwijdert dus niet per se het kwaad, maar je verwijdert wel heel veel andere dingen.

2. Vrouwen zijn de grootste verliezers
Dit is het belangrijkste punt van het onderzoek.

  • Het resultaat: Wanneer ze de filters uitzetten, blijken vrouwen veel vaker uit de bibliotheek te worden gegooid dan mannen.
  • De metafoor: Stel je voor dat je een bezem gebruikt die heel goed is in het vegen van "slechte" woorden. Maar deze bezem is zo ingesteld dat hij ook alle boeken verwijdert waarin vrouwen voorkomen, vooral als ze over hun werk of lichaam gaan.
    • Bijvoorbeeld: Als een tekst gaat over een "pornografisch actrice" of een "model", wordt die tekst vaak verwijderd. Omdat deze beroepen vaker aan vrouwen worden gekoppeld in de data, verdwijnen de vermeldingen van vrouwen veel sneller dan die van mannen.
    • Mannen worden ook verwijderd, maar vaak omdat ze "politici" of "schrijvers" zijn. De filters zijn hier minder streng op.

3. Verschillende bezems vegen verschillende dingen weg

  • Als je een lijst met scheldwoorden gebruikt (zoals "dick" of "sex"), verwijder je vooral teksten over seks.
  • Als je een lijst met racistische woorden gebruikt, verwijder je teksten over racisme.
  • Het probleem: Als je kiest voor de ene bezem, laat je de andere soorten "vuil" staan. Er is geen perfecte bezem die alle kwaad verwijdert zonder ook onschuldige mensen (zoals vrouwen) mee te slepen.

💡 Wat betekent dit voor ons?

De auteurs concluderen dat we op dit moment een dilemma hebben:

  • Als we proberen AI veiliger te maken door data te filteren, maken we de AI vaak onrechtvaardiger.
  • Vrouwen en mensen uit minderheidsgroepen worden "onzichtbaar" gemaakt in de data. De AI leert dan dat deze groepen minder belangrijk zijn of minder vaak voorkomen dan ze in het echt doen.

De les:
Het is alsof je een tuin wilt schoonmaken van onkruid, maar je gebruikt een machine die per ongeluk ook alle bloemen van een bepaalde kleur (bijvoorbeeld roze bloemen = vrouwen) verwijdert. Je hebt een schone tuin, maar je hebt je mooiste bloemen kwijtgeraakt.

🚀 Wat nu?

De schrijvers zeggen dat we beter moeten gaan kijken naar wie er precies wordt verwijderd. We moeten niet blindelings vertrouwen op "kwaliteit" of automatische filters. We moeten zorgen dat de schoonmaakbeurt eerlijk is, zodat de AI niet alleen leert van mannen en westerse perspectieven, maar ook van vrouwen en mensen uit de hele wereld.

Kortom: Veiligheid is belangrijk, maar we mogen niet de diversiteit van de wereld verliezen in het proces.