Token Cleaning: Fine-Grained Data Selection for LLM Supervised Fine-Tuning

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme robot (een Large Language Model of LLM) wilt leren om goed Nederlands te spreken en vragen te beantwoorden. Je hebt een enorme bibliotheek met boeken, artikelen en gesprekken verzameld om hem te trainen.

Deze paper, getiteld "Token Cleaning" (Token Schoonmaken), vertelt ons een heel belangrijk geheim: Kwaliteit is veel belangrijker dan kwantiteit.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Ruis" in de Bibliotheek

Vroeger dachten mensen: "Hoe meer boeken we aan de robot geven, hoe slimmer hij wordt." Maar onderzoek toont aan dat dit niet helemaal klopt.

Stel je voor dat je een kok wilt leren koken. Je geeft hem een receptenboek. Maar in dat boek staan niet alleen heerlijke recepten. Er staan ook:

Lijsten met ingrediënten die hij al uit zijn hoofd kent (overbodig).
Foutieve instructies (gevaarlijk).
Herhalingen van woorden die niets te maken hebben met het koken (zoals "de", "en", "is" in elke zin).

In de wereld van AI noemen we deze kleine stukjes tekst "tokens". Zelfs in een heel goed boek (een hoogwaardig dataset) zitten deze nutteloze of verwarrende stukjes. Als de robot deze leest alsof het allemaal even belangrijk is, raakt hij in de war. Hij leert de "ruis" in plaats van de "boodschap".

2. De Oplossing: Een Fijnmazig Schoonmaakteam

De auteurs van dit paper zeggen: "Wacht even, we hoeven niet het hele boek weg te gooien. We moeten gewoon de specifieke zinnen of woorden eruit halen die niet helpen."

Ze noemen dit Token Cleaning. In plaats van te kijken of een heel gesprek goed is (zoals eerdere methoden deden), kijken ze naar elk klein woordje (token) apart.

Hoe doen ze dat?
Ze gebruiken een slimme truc, alsof ze een twee-koppige jury hebben:

De Oude Meester (Base Model): Een robot die al wat weet, maar nog niet perfect is.
De Nieuwe Meester (Reference Model): Een robot die al iets slimmer is of beter getraind.

Ze laten beide robots een tekst lezen. Als de "Nieuwe Meester" een woordje ziet en denkt: "Ah, dit woord is cruciaal om de zin te begrijpen!", maar de "Oude Meester" denkt: "Nou, dat woord deed ik al goed, dat is niet zo spannend," dan is dat woordje belangrijk.

Als de Nieuwe Meester echter denkt: "Dit woordje is saai, ik wist het al," dan is het onbelangrijk en kan het weg.

3. De Twee Manieren van Schoonmaken

De paper beschrijft twee manieren om dit schoonmaakproces te doen:

A. De "Vaste Jury" (Fixed-Model Cleaning)

Je neemt één keer een slimmere robot en laat die de hele bibliotheek doorzoeken. Alle nutteloze woorden worden gemarkeerd en verwijderd. Daarna leert de robot alleen nog maar van de "schoongemaakte" tekst.

Vergelijking: Het is alsof je één keer een professionele redacteur over je manuscript laat lopen om alle overbodige woorden te schrappen, en daarna pas gaat schrijven.
Voordeel: Het is stabiel en veilig.
Nadeel: Het kan niet groeien. De redacteur blijft hetzelfde.

B. De "Zich Ontwikkelende Jury" (Self-Evolving Cleaning) – De Sterkste!

Dit is de innovatieve methode.

Je begint met een klein stukje tekst en een basis-robot.
Je laat de robot dat stukje leren.
Nu is die robot slimmer dan voorheen. Hij wordt je nieuwe "Nieuwe Meester".
Met deze nieuwe, slimmere robot ga je het volgende stukje tekst schoonmaken. Omdat hij slimmer is, ziet hij nog beter welke woorden echt belangrijk zijn.
Je herhaalt dit proces steeds: de robot wordt slimmer, en daardoor wordt het schoonmaken van de volgende tekst nog preciezer.

Vergelijking: Dit is als een leerling die elke dag een beetje beter wordt in koken. Vandaag helpt hij de chef om sauzen te maken. Morgen is hij al zo goed dat hij de chef kan helpen om de hele keuken in te richten. Hij leert van zijn eigen successen en wordt steeds scherper in het filteren van informatie.
Het "Rich Get Richer" effect: Als de robot al goed is in een bepaald onderwerp, wordt hij er steeds beter in. Maar als hij ergens slecht in is, kan hij daar juist slechter van worden (als hij verkeerde woorden blijft kiezen). Daarom is voorzichtigheid nodig.

4. Wat levert dit op?

De resultaten zijn indrukwekkend:

Door ongeveer 30% tot 40% van de woorden (de saaie, overbodige ruis) weg te halen, wordt de robot slimmer dan wanneer hij alles had gelezen.
Het is alsof je een student niet 1000 saaie bladzijden laat lezen, maar hem 600 bladzijden geeft met alleen de allerbelangrijkste feiten. Hij leert sneller en maakt minder fouten.

Samenvatting in één zin

In plaats van een robot te overvoeren met enorme hoeveelheden data, helpt deze methode de robot om scharnierwoorden te vinden en de ruis te negeren, waardoor hij met minder data beter presteert, vooral als hij zichzelf steeds slimmer maakt tijdens het leerproces.

Het is de kunst van "Minder is Meer", maar dan op het niveau van elk individueel woordje.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Token Cleaning: Fine-Grained Data Selection for LLM Supervised Fine-Tuning" in het Nederlands.

Probleemstelling

Bij het Supervised Fine-Tuning (SFT) van Large Language Models (LLMs) is de kwaliteit van de data cruciaal, vaak belangrijker dan de hoeveelheid. Bestaande methoden voor data-cleaning focussen voornamelijk op het filteren van volledige samples (bijvoorbeeld het verwijderen van slechte instructie-antwoordparen).

Het paper identificeert echter een fundamenteel probleem dat op een grover niveau ligt: zelfs binnen hoogwaardige samples kan de kwaliteit van individuele tokens sterk variëren. Na het pre-training van een model bevatten veel samples redundante patronen, veelvoorkomende zinsconstructies of onnodige informatie die niet relevant zijn voor de specifieke taak. Het doorgaan met het fine-tunen op deze "oninformatieve tokens" introduceert ruis (noise) in het leerproces, wat kan leiden tot suboptimale prestaties en zelfs degradatie van de downstream-taken. De huidige aanpak mist dus een fijnmazige selectie op token-niveau.

Methodologie: Token Cleaning Pipeline

De auteurs stellen een generieke pipeline voor die tokens filtert op basis van een "ruisig-label" perspectief. Het doel is om oninformatieve tokens te verwijderen en alleen die tokens te behouden die waardevolle, taak-specifieke informatie dragen.

De kern van de methode bestaat uit twee stappen:

Scorefunctie (Invloed-gestuurd):
De kwaliteit van een token wordt bepaald door de invloed van model-updates op dat specifieke token. Dit wordt gemeten als het verschil in verlies (loss) tussen een base model ( $\theta$ ) en een referentiemodel ( $\theta'$ ):
$Score(x_{i,j}) = -(\ell(x_{i,j} | \theta') - \ell(x_{i,j} | \theta))$
Een hogere score (negatievere invloedswaarde) geeft aan dat het token significant bijdraagt aan het verbeteren van het model. Als een token al goed voorspeld wordt door het referentiemodel, maar slecht door het base model, is de "leerwaarde" van dat token hoog.
Drempelwaarde (Thresholding):
Na het berekenen van de scores worden tokens gefilterd op basis van een vaste verhouding (bijv. de top 60% van de tokens). Alleen tokens met een score boven deze drempel worden gebruikt voor het trainen van het model.

De auteurs presenteren twee specifieke implementaties van deze pipeline:

Fixed-Model Cleaning:
- Er wordt gebruikgemaakt van één vast base model en één vast referentiemodel (vaak een model dat is "opgewarmd" op een subset van de data).
- De dataset wordt één keer doorgelopen om scores te berekenen en tokens te filteren.
- Het base model wordt vervolgens getraind op de gefilterde tokens.
- Voordeel: Stabiel en voorspelbaar.
- Nadeel: Beperkt in potentie omdat het referentiemodel niet meegroeit met de verbetering van het model.
Self-Evolving Cleaning:
- Een iteratieve aanpak. De dataset wordt opgedeeld in subsets.
- In elke iteratie $t$ wordt het base model gefixeerd, maar het referentiemodel wordt bijgewerkt met de resultaten van de vorige iteratie.
- Het proces verloopt als volgt: Train op subset 0 -> Update referentiemodel -> Gebruik dit nieuwe referentiemodel om subset 1 te schonen -> Train en update opnieuw, enzovoort.
- Dit creëert een "Matthew-effect" (de rijken worden rijker): hoe beter het referentiemodel wordt, hoe scherper het kan filteren, wat leidt tot nog betere training in de volgende ronde.

Theoretisch Kader

Het paper biedt een theoretische analyse van de foutbovengrens bij het leren met volledige tokens versus gefilterde tokens.

De algemene fout wordt bepaald door twee factoren: Data Kwaliteit (ruispercentage) en Data Kwantiteit (aantal tokens).
Het bewijs toont aan dat token cleaning superieur is wanneer de reductie in ruis (verbeterde kwaliteit) opweegt tegen het verlies aan het totale aantal tokens.
Voor Fixed-Model Cleaning is de verbetering stabiel maar beperkt door de kwaliteit van het initiële referentiemodel.
Voor Self-Evolving Cleaning wordt een potentieel grotere verbetering voorspeld, maar met het risico van instabiele convergentie als de ruis in een iteratie te hoog wordt (het "poor get poorer" effect).

Resultaten

De auteurs hebben uitgebreide experimenten uitgevoerd op drie verschillende base modellen (LLaMA-3.2-3B, LLaMA-3.1-8B, Mistral-7B) en zeven benchmarks (waaronder MMLU, TruthfulQA, TydiQA).

Prestatieverbetering: De voorgestelde methoden overtreffen consequent de baselines (inclusief het trainen op alle tokens, willekeurige selectie, en bestaande token-selectiemethoden zoals RHO).
- Bij het 3B-model boekte de Self-Evolving Cleaning een gemiddelde verbetering van 6,3% ten opzichte van het trainen op alle tokens.
- Bij de 7B/8B-modellen waren de verbeteringen respectievelijk 2,0% en 4,4%.
Token Selectie: De beste resultaten werden behaald wanneer ongeveer 30% tot 40% van de tokens werd verwijderd (dus 60-70% behouden). Dit ondersteunt de hypothese dat een klein aantal hoogwaardige, informatieve tokens cruciaal is voor SFT.
Vergelijking: De Global Ranking (gehele dataset scannen) van de Fixed-Model Cleaning presteerde beter dan Local Ranking (per sample scannen, zoals bij RHO), omdat lokale ranking oninformatieve tokens in slechte samples kan behouden en informatieve tokens in goede samples kan verwijderen.
Iteratieve Verbetering: De resultaten van de Self-Evolving Cleaning tonen duidelijk de drie theoretische observaties: sommige taken verbeteren gestaag (Rich get richer), sommige nemen licht af (Poor get poorer), en sommige vertonen fluctuaties (instabiele convergentie).

Bijdrage en Significantie

De belangrijkste bijdragen van dit werk zijn:

Fijnmazige Data Selectie: Het verschuift de focus van sample-level cleaning naar token-level cleaning, wat een veel fijnere controle biedt over wat het model leert.
Generieke Pipeline: Een framework dat werkt met verschillende strategieën (Fixed vs. Self-Evolving) en toepasbaar is op diverse SFT-taken.
Theoretische Inzichten: Een wiskundige onderbouwing van waarom en wanneer token cleaning werkt, inclusief de analyse van de trade-off tussen ruisreductie en datavolume.
Praktische Impact: Het aantonen dat het verwijderen van een aanzienlijk deel van de "ruis" (redundante tokens) leidt tot snellere training en betere eindprestaties, wat kostenefficiëntie en prestaties voor LLM-ontwikkeling verbetert.

Kortom, dit paper toont aan dat niet alle tokens in een dataset even waardevol zijn voor SFT, en dat het actief filteren van oninformatieve tokens op basis van model-invloed een krachtige techniek is om de prestaties van taalmodellen te maximaliseren.

Token Cleaning: Fine-Grained Data Selection for LLM Supervised Fine-Tuning

1. Het Probleem: De "Ruis" in de Bibliotheek

2. De Oplossing: Een Fijnmazig Schoonmaakteam

3. De Twee Manieren van Schoonmaken

A. De "Vaste Jury" (Fixed-Model Cleaning)

B. De "Zich Ontwikkelende Jury" (Self-Evolving Cleaning) – De Sterkste!

4. Wat levert dit op?

Samenvatting in één zin

Probleemstelling

Methodologie: Token Cleaning Pipeline

Theoretisch Kader

Resultaten

Bijdrage en Significantie

Meer zoals dit

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models