No Memorization, No Detection: Output Distribution-Based Contamination Detection in Small Language Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kok hebt die een nieuw recept heeft geleerd. Je wilt weten of deze kok het recept echt uit zijn hoofd heeft geleerd (memoriseren) of dat hij het gewoon een keer heeft gezien en nu probeert het na te maken.

Dit is precies het probleem dat dit onderzoek onderzocht: Data-contaminatie. Dit betekent dat de "examenvragen" (de testdata) per ongeluk in de "leermateriaal" (de trainingsdata) van een kunstmatige intelligentie (AI) zijn beland. Als dat gebeurt, is de test niet eerlijk meer, want de AI heeft het antwoord al gezien.

De auteurs van dit paper hebben gekeken naar een nieuwe manier om dit op te sporen, genaamd CDD. Hier is wat ze hebben ontdekt, vertaald naar simpele taal:

1. De oude methode: CDD (Het "Geduldige Vraaggesprek")

De methode CDD werkt als volgt: je stelt de AI dezelfde vraag 50 keer, maar je vraagt haar om een beetje "willekeurig" te antwoorden (alsof je haar vraagt om een verhaal te vertellen, maar met een beetje variatie).

De theorie: Als de AI het antwoord uit haar hoofd heeft geleerd, zal ze bij elke poging bijna exact hetzelfde antwoord geven. Haar antwoorden zijn dan "op elkaar gestemd" (ze pieken).
De verwachting: Als de antwoorden allemaal hetzelfde zijn, weten we: "Aha! Ze heeft dit gezien!"

2. Het grote probleem: Kleine AI's zijn slimme "klokkende" koks

De auteurs hebben gekeken naar kleine AI-modellen (van 70 miljoen tot 410 miljoen parameters). Dit zijn veel kleiner dan de gigantische modellen die we vaak horen over.

Ze ontdekten iets verrassends: CDD werkt vaak niet bij deze kleine modellen.

De analogie: Stel je voor dat je een kleine kok (een klein model) een recept laat zien. Hij leert het recept goed, maar hij is niet zo goed in het uit het hoofd leren. Als je hem vraagt om het gerecht 50 keer te maken, doet hij het elke keer anders. Soms zet hij wat meer zout, soms minder. Soms snijdt hij de wortels anders.
Het resultaat: Voor de "CDD-methode" ziet het eruit alsof de kok het recept niet kent, omdat zijn antwoorden zo verschillend zijn. Maar in werkelijkheid heeft hij het recept wel geleerd! Hij heeft het gewoon niet uit het hoofd geleerd tot op het punt dat hij blindelings hetzelfde antwoord geeft.

Dit gebeurt vooral als je de AI op een slimme, efficiënte manier traint (met een techniek genaamd LoRA). De AI leert dan wel, maar "collaboreert" niet tot één enkel antwoord. CDD ziet dit niet en denkt: "Geen probleem, geen contaminatie." Terwijl er wel contaminatie is.

3. De nieuwe methode: Perplexiteit (Het "Vreemde Gevoel")

De auteurs vergeleken CDD met andere methoden, zoals Perplexity en Min-k% Prob.

De analogie: Deze methoden kijken niet naar wat de AI zegt, maar naar hoe ze voelt terwijl ze denkt.
Als de AI een vraag ziet die ze eerder heeft gezien, voelt ze zich "op haar gemak". Ze weet precies welke woorden als volgende komen. Het voelt niet vreemd of "verbaasd" voor haar.
Zelfs als de AI het antwoord niet uit haar hoofd heeft (en dus elke keer iets anders zegt), voelt ze zich toch op haar gemak bij de vraag zelf.

Het resultaat: Deze methoden werken altijd beter dan CDD, zelfs bij de kleine modellen. Ze kunnen de "vertrouwdheid" van de AI detecteren, zelfs als de AI nog niet zo ver is gekomen dat ze het antwoord letterlijk uit haar hoofd kan reciteren.

4. De belangrijkste conclusie: "Leren" vs. "Uit het hoofd leren"

Het paper maakt een cruciaal onderscheid:

Leren: De AI begrijpt het patroon en kan het toepassen (maar geeft elke keer een iets ander antwoord).
Uit het hoofd leren (Memoriseren): De AI herhaalt het antwoord letterlijk, elke keer hetzelfde.

CDD kan alleen uit het hoofd leren detecteren. Het ziet leren niet.
Voor kleine modellen is het heel normaal dat ze leren zonder het antwoord letterlijk uit het hoofd te leren. Daarom faalt CDD bij deze modellen. Het is alsof je een test doet om te zien of iemand een liedje kent, maar je vraagt ze het liedje 50 keer te fluiten. Als ze het liedje kennen maar elke keer een andere versie fluiten, denk je dat ze het niet kennen. Maar als je vraagt: "Herken je dit liedje?", zeggen ze direct "Ja!".

Samenvattend in één zin:

Deze paper waarschuwt dat de populaire methode om te checken of AI's "cheaten" door het herhalen van antwoorden (CDD) niet werkt voor kleinere modellen, omdat die modellen slim genoeg zijn om te leren zonder het antwoord letterlijk uit hun hoofd te spreken; betere methoden kijken naar hoe "vertrouwd" de AI met de vraag is, niet naar hoe identiek haar antwoorden zijn.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "No Memorization, No Detection: Output Distribution-Based Contamination Detection in Small Language Models" in het Nederlands.

Probleemstelling

Data-contaminatie (het voorkomen van evaluatiegegevens in de trainingsset van een model) ondermijnt de betrouwbaarheid van benchmarks voor taalkundige modellen. Met de groei van ondoorzichtige trainingscorpora wordt het detecteren van deze contaminatie cruciaal.

Een recente methode, CDD (Contamination Detection via output Distribution), gepresenteerd door Dong et al. (2024), probeert contaminatie te detecteren door de "piekachtigheid" (peakedness) van de output-distributie van een model te meten. De intuïtie is dat een model dat data heeft gememoriseerd, bij herhaalde steekproeven (sampling) bijna identieke antwoorden zal geven, waardoor de output-distributie instort naar één punt. CDD werkt alleen met gegenereerde tekst, wat het toepasbaar maakt op black-box modellen.

Het paper onderzoekt echter of CDD betrouwbaar is voor kleine taalmodellen (Small Language Models, SLMs) en of de effectiviteit afhankelijk is van het fine-tuning-regime. De auteurs vermoeden dat CDD faalt wanneer fine-tuning leidt tot leren zonder volledige memorisatie (verbatim herhaling), wat vaak het geval is bij parameter-efficiënte methoden.

Methodologie

De auteurs voeren gecontroleerde experimenten uit om de prestaties van CDD te evalueren onder verschillende omstandigheden.

Modellen: Drie modellen uit de Pythia-suite (70M, 160M en 410M parameters).
Datasets: GSM8K (wiskunde), HumanEval (code) en MATH (wedstrijdwiskunde).
Contaminatie: Specifieke voorbeelden uit de testset worden herhaald (0, 1, 5 of 10 keer) en toegevoegd aan de trainingsset.
Fine-tuning Variabelen:
- Capaciteit: LoRA (Low-Rank Adaptation) met rang $r=8$ (zeer beperkt), LoRA met $r=256$ , en volledige fine-tuning (Full FT).
- Duur: 3 en 20 training-epochs.
Vergelijkende Methoden (Baselines):
- CDD: Meet de edit-afstand tussen een deterministische (greedy) output en 50 temperatuur-gesamplede outputs. Een hoge piekachtigheid (veel samples dicht bij de greedy output) duidt op contaminatie.
- N-gram overlap: Vergelijkt 3-grams van de prompt met de trainingscorpus (vereist toegang tot de trainingsdata).
- Perplexity (PPL): Meet de verwarring van het model over de prompt (lager is beter bij contaminatie).
- Min-k% Prob: Meet de gemiddelde log-probabiliteit van de $k\%$ minst waarschijnlijke tokens (hogere waarden duiden op contaminatie).

Belangrijkste Bevindingen en Resultaten

1. CDD vereist "Output Distribution Collapse"
De kernbevinding is dat CDD alleen werkt als het fine-tuning-proces de output-distributie van het model doet instorten naar een enkel antwoord (verbatim memorisatie).

Bij LoRA $r=8$ (kleine capaciteit) en korte training (3 epochs) daalt de trainingsfout wel (het model leert de data), maar produceert het model bij steekproeven diverse antwoorden. De output-distribatie stort niet in.
In deze scenario's presteert CDD op willekeurig niveau (ca. 50% nauwkeurigheid), zelfs als de data verifiabel is verontreinigd.
De baselines (Perplexity en Min-k% Prob) detecteren de contaminatie echter wel succesvol in deze scenario's.

2. De "Memorization Threshold" (Memorisatiedrempel)
Er is een scherpe drempel die bepaalt of contaminatie detecteerbaar is met CDD. Deze drempel wordt bepaald door de interactie van:

Modelgrootte.
Aantal trainbare parameters (LoRA-rang).
Trainingsduur.
Zodra de capaciteit deze drempel overschrijdt (bijv. Full FT of LoRA $r=256$ op grotere modellen), schakelt CDD abrupt van willekeur naar hoge nauwkeurigheid (>90%).

3. Parameter-efficiëntie creëert een "Blind Vlek"
Parameter-efficiënte fine-tuning (zoals LoRA met lage rang), wat steeds vaker de standaard is voor modeladaptatie, kan contaminatie creëren die CDD niet kan detecteren. Dit is een stil falen: het model heeft de data geleerd, maar produceert geen consistente outputs bij steekproeven, waardoor CDD denkt dat er geen contaminatie is.

4. Vergelijking met Baselines

Perplexity en Min-k% Prob overtreffen CDD in alle geteste condities.
Zelfs bij lage contaminatieniveaus (1x herhaling) en bij kleine modellen detecteren probabilistische methoden signalen, terwijl CDD niets ziet.
CDD is het zwakste detectiemiddel over alle domeinen en configuraties heen.

5. Hyperparameter Sensitiviteit
Het aanpassen van CDD-hyperparameters (zoals de drempel voor edit-afstand, temperatuur of aantal samples) helpt niet om CDD te redden in scenario's waar het faalt. De fout is fundamenteel, niet een kwestie van slechte instellingen.

Significantie en Implicaties

Onbetrouwbaarheid voor SLM's: CDD is ongeschikt als enige detectiemethode voor kleine taalmodellen, vooral wanneer parameter-efficiënte fine-tuning wordt gebruikt. Het kan een valse zekerheid geven dat een model schoon is, terwijl het besmet is.
Leren vs. Memoriseren: Het paper onderscheidt duidelijk tussen "leren van data" (wat leidt tot lagere trainingsfouten en detecteerbaar is via probabilistische methoden) en "memoriseren" (wat nodig is voor CDD). De meeste detectiemethoden reageren op het eerste, maar CDD alleen op het tweede.
Aanbeveling: De gemeenschap moet overstappen op probabilistische methoden (Perplexity, Min-k% Prob) voor het auditen van kleine modellen, aangezien deze methoden toegang tot output-probabiliteiten vereisen maar geen toegang tot de trainingscorpus nodig hebben en overleggen met CDD.
Context voor eerdere resultaten: De oorspronkelijke CDD-resultaten op 7B-modellen waren succesvol omdat zelfs een lage LoRA-rang daar miljoenen trainbare parameters oplevert (boven de drempel). Bij kleine modellen (70M-410M) levert dezelfde rang slechts duizenden parameters op, wat onder de drempel blijft.

Conclusie: Output-distributie-benaderingen zoals CDD zijn ontoereikend voor contaminatiedetectie in kleine taalmodellen. Zonder verbatim memorisatie blijft contaminatie onzichtbaar voor CDD, terwijl probabilistische methoden deze effectief blijven detecteren.

No Memorization, No Detection: Output Distribution-Based Contamination Detection in Small Language Models

1. De oude methode: CDD (Het "Geduldige Vraaggesprek")

2. Het grote probleem: Kleine AI's zijn slimme "klokkende" koks

3. De nieuwe methode: Perplexiteit (Het "Vreemde Gevoel")

4. De belangrijkste conclusie: "Leren" vs. "Uit het hoofd leren"

Samenvattend in één zin:

Probleemstelling

Methodologie

Belangrijkste Bevindingen en Resultaten

Significantie en Implicaties

Meer zoals dit

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models