How Much Noise Can BERT Handle? Insights from Multilingual Sentence Difficulty Detection

Deze studie toont aan dat hoewel BERT-modellen inherent robuust zijn voor ruis bij het detecteren van zinsmoeilijkheid in meertalige data, het toepassen van specifieke denoising-technieken zoals GMM-filtering de prestaties aanzienlijk kan verbeteren, vooral bij kleinere datasets.

Nouran Khallaf, Serge Sharoff

Gepubliceerd 2026-03-10
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Hier is een uitleg van het onderzoek in eenvoudig Nederlands, met wat creatieve vergelijkingen om het begrijpelijk te maken.

De Kern: BERT en de "Ruis" in de Data

Stel je voor dat BERT (een slimme computer die taal begrijpt) een jonge student is die zich voorbereidt op een examen: "Is deze zin makkelijk of moeilijk te lezen?".

Om dit te leren, krijgt de student een enorme stapel oefenopgaven. Maar er zit een groot probleem: deze opgaven zijn niet perfect. Ze zijn verzameld via crowdsourcing (vele mensen die online helpen) en soms worden hele artikelen beoordeeld, terwijl de student eigenlijk alleen naar één zin moet kijken.

Dit zorgt voor ruis (noise):

  • Een zin uit een moeilijk Wikipedia-artikel is soms heel simpel.
  • Een zin uit een "makkelijk" kinderboek (Vikidia) is soms juist heel ingewikkeld.
  • Soms zit er gewoon een foutje in de tekst (zoals een gebroken lijstje of vreemde tekens).

Als je deze "vuile" oefenopgaven aan de student geeft, raakt hij in de war en leert hij de verkeerde dingen. De onderzoekers van de Universiteit van Leeds wilden weten: Hoeveel ruis kan BERT verdragen voordat hij faalt, en hoe kunnen we de data schoonmaken?


De Vergelijking: De Grote Bibliotheek vs. De Kleine Bibliotheek

De onderzoekers hebben twee verschillende "bibliotheken" (datasets) getest:

  1. De Kleine Bibliotheek (Engelse data):
    Hier was de ruis erg storend. De computer kon de juiste antwoorden niet vinden tussen alle fouten.

    • Oplossing: Ze gebruikten een GMM (een slimme filter die lijkt op een metaalzoeker). Deze filter zocht specifiek naar de "vuile" zinnen en gooide ze weg.
    • Resultaat: Het was als een wonder! De prestatie van de computer sprong van een 5 naar een 9,5. Door de ruis te verwijderen, werd de student plotseling een expert.
  2. De Grote Bibliotheek (Franse data):
    Hier was er zoveel data (bijna 2 miljoen zinnen) dat de computer van nature al heel goed werd. Het was alsof de student zo veel oefenopgaven kreeg dat hij de fouten vanzelf doorzag.

    • Oplossing: Ze probeerden dezelfde filters, maar het verschil was klein. De computer was al zo sterk dat het weggooien van een paar zinnen niet veel meer opleverde.
    • Conclusie: Als je genoeg goede data hebt, is de computer van nature al bestand tegen ruis. Maar het is wel handig om de bibliotheek schoon te houden voor de toekomst.

De Schoonmaakmethodes: Hoe werken de filters?

De onderzoekers testten verschillende manieren om de "vuile" zinnen te vinden. Hier zijn de methodes in begrijpelijke taal:

  • GMM (De Metaalzoeker):
    Deze kijkt naar de "vorm" van de zinnen. Als een zin er heel anders uitziet dan de rest (bijvoorbeeld een zin die uit een lijstje komt of vreemde tekens bevat), denkt de computer: "Dit hoort hier niet bij, dit is ruis."
  • Co-Teaching (De Twee Vrienden):
    Twee computers werken samen. Ze kijken naar elkaars antwoorden. Als de ene computer denkt: "Dit is een moeilijke vraag" en de andere denkt: "Nee, dit is een foutje", dan gooien ze die vraag weg. Ze leren van elkaar om fouten te zien.
  • Label Smoothing (De Vriendelijke Leraar):
    In plaats van te zeggen "Dit is 100% fout", zegt deze methode: "Dit is waarschijnlijk fout, maar wees niet te zeker." Dit helpt de computer om niet te snel te oordelen als hij twijfelt.
  • Noise Transition Matrix (De Foutenkaart):
    Deze methode maakt een kaart van welke fouten vaak voorkomen. Als ze weten dat "Wikipedia-zinnen" vaak per ongeluk als 'makkelijk' worden gemarkeerd, passen ze hun berekening daarop aan in plaats van de zinnen weg te gooien.

Wat vonden ze precies? (De "Ruis" in detail)

Toen de onderzoekers de "vuile" zinnen die ze hadden gevonden, handmatig bekeken, zagen ze drie soorten vuil:

  1. Structuur-vuil: Tekst die kapot is gegaan. Denk aan een zin die halverwege stopt, of een lijstje dat als zin is getypt.
    • Vergelijking: Een zin als "De planeet Ceres is de grootste asteroïde, met een diameter van ." (Het ontbreekt het getal).
  2. Inhoud-vuil: Zinnen die vol staan met namen, getallen of vakjargon, maar geen echte zin zijn.
    • Vergelijking: "Apple Inc. | 1976 | Californië | Steve Jobs | Technologie." Dit is geen zin, maar een lijstje.
  3. Label-vuil: De tekst is perfect, maar de mens die het heeft gemarkeerd, had het fout.
    • Vergelijking: Een heel moeilijke zin uit een kinderboek die per ongeluk als "makkelijk" is gemarkeerd.

De belangrijkste ontdekking:
De meeste methodes vonden verschillende soorten vuil. De "Metaalzoeker" (GMM) vond vooral de rare lijstjes en kapotte teksten. De "Twee Vrienden" (Co-Teaching) vonden vooral de zinnen die de computer zelf niet begreep. Door deze methodes te combineren, kregen ze het schoonste resultaat.


Waarom is dit belangrijk?

Dit onderzoek is als het opruimen van een rommelige werkplaats voordat je gaat bouwen.

  • Voor taalles: Als je een app wilt maken die vertelt of een tekst geschikt is voor een kind, wil je niet dat de app denkt dat een ingewikkeld wetenschappelijk artikel makkelijk is, alleen omdat het per ongeluk in een kinderboek stond.
  • Meertaligheid: Ze hebben getest of een computer die in het Frans is getraind, ook goed kan oordelen in het Spaans of Italiaans. Het bleek dat het schoonmaken van de data helpt, maar dat de grootte van de dataset nog belangrijker is.
  • Gratis cadeau: De onderzoekers hebben de "schoongemaakte" dataset (de grootste meertalige verzameling ooit voor dit doel) gratis beschikbaar gesteld op GitHub. Zo kunnen anderen ook bouwen op een schone basis.

Kortom: BERT is een sterke student, maar hij heeft wel een schone werkplek nodig om zijn beste prestaties te leveren. Door slimme filters te gebruiken, kunnen we die werkplek schoonmaken, vooral als we niet genoeg data hebben.