No Memorization, No Detection: Output Distribution-Based Contamination Detection in Small Language Models

Dit onderzoek concludeert dat de methode CDD voor het detecteren van datacontaminatie in kleine taalmodellen (70M-410M parameters) over het algemeen niet effectiever is dan willekeur en dat probabilistische methoden zoals perplexiteit en Min-k% Prob in alle geteste scenario's superieure resultaten leveren.

Omer Sela (Tel Aviv University)

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kok hebt die een nieuw recept heeft geleerd. Je wilt weten of deze kok het recept echt uit zijn hoofd heeft geleerd (memoriseren) of dat hij het gewoon een keer heeft gezien en nu probeert het na te maken.

Dit is precies het probleem dat dit onderzoek onderzocht: Data-contaminatie. Dit betekent dat de "examenvragen" (de testdata) per ongeluk in de "leermateriaal" (de trainingsdata) van een kunstmatige intelligentie (AI) zijn beland. Als dat gebeurt, is de test niet eerlijk meer, want de AI heeft het antwoord al gezien.

De auteurs van dit paper hebben gekeken naar een nieuwe manier om dit op te sporen, genaamd CDD. Hier is wat ze hebben ontdekt, vertaald naar simpele taal:

1. De oude methode: CDD (Het "Geduldige Vraaggesprek")

De methode CDD werkt als volgt: je stelt de AI dezelfde vraag 50 keer, maar je vraagt haar om een beetje "willekeurig" te antwoorden (alsof je haar vraagt om een verhaal te vertellen, maar met een beetje variatie).

  • De theorie: Als de AI het antwoord uit haar hoofd heeft geleerd, zal ze bij elke poging bijna exact hetzelfde antwoord geven. Haar antwoorden zijn dan "op elkaar gestemd" (ze pieken).
  • De verwachting: Als de antwoorden allemaal hetzelfde zijn, weten we: "Aha! Ze heeft dit gezien!"

2. Het grote probleem: Kleine AI's zijn slimme "klokkende" koks

De auteurs hebben gekeken naar kleine AI-modellen (van 70 miljoen tot 410 miljoen parameters). Dit zijn veel kleiner dan de gigantische modellen die we vaak horen over.

Ze ontdekten iets verrassends: CDD werkt vaak niet bij deze kleine modellen.

  • De analogie: Stel je voor dat je een kleine kok (een klein model) een recept laat zien. Hij leert het recept goed, maar hij is niet zo goed in het uit het hoofd leren. Als je hem vraagt om het gerecht 50 keer te maken, doet hij het elke keer anders. Soms zet hij wat meer zout, soms minder. Soms snijdt hij de wortels anders.
  • Het resultaat: Voor de "CDD-methode" ziet het eruit alsof de kok het recept niet kent, omdat zijn antwoorden zo verschillend zijn. Maar in werkelijkheid heeft hij het recept wel geleerd! Hij heeft het gewoon niet uit het hoofd geleerd tot op het punt dat hij blindelings hetzelfde antwoord geeft.

Dit gebeurt vooral als je de AI op een slimme, efficiënte manier traint (met een techniek genaamd LoRA). De AI leert dan wel, maar "collaboreert" niet tot één enkel antwoord. CDD ziet dit niet en denkt: "Geen probleem, geen contaminatie." Terwijl er wel contaminatie is.

3. De nieuwe methode: Perplexiteit (Het "Vreemde Gevoel")

De auteurs vergeleken CDD met andere methoden, zoals Perplexity en Min-k% Prob.

  • De analogie: Deze methoden kijken niet naar wat de AI zegt, maar naar hoe ze voelt terwijl ze denkt.
  • Als de AI een vraag ziet die ze eerder heeft gezien, voelt ze zich "op haar gemak". Ze weet precies welke woorden als volgende komen. Het voelt niet vreemd of "verbaasd" voor haar.
  • Zelfs als de AI het antwoord niet uit haar hoofd heeft (en dus elke keer iets anders zegt), voelt ze zich toch op haar gemak bij de vraag zelf.

Het resultaat: Deze methoden werken altijd beter dan CDD, zelfs bij de kleine modellen. Ze kunnen de "vertrouwdheid" van de AI detecteren, zelfs als de AI nog niet zo ver is gekomen dat ze het antwoord letterlijk uit haar hoofd kan reciteren.

4. De belangrijkste conclusie: "Leren" vs. "Uit het hoofd leren"

Het paper maakt een cruciaal onderscheid:

  • Leren: De AI begrijpt het patroon en kan het toepassen (maar geeft elke keer een iets ander antwoord).
  • Uit het hoofd leren (Memoriseren): De AI herhaalt het antwoord letterlijk, elke keer hetzelfde.

CDD kan alleen uit het hoofd leren detecteren. Het ziet leren niet.
Voor kleine modellen is het heel normaal dat ze leren zonder het antwoord letterlijk uit het hoofd te leren. Daarom faalt CDD bij deze modellen. Het is alsof je een test doet om te zien of iemand een liedje kent, maar je vraagt ze het liedje 50 keer te fluiten. Als ze het liedje kennen maar elke keer een andere versie fluiten, denk je dat ze het niet kennen. Maar als je vraagt: "Herken je dit liedje?", zeggen ze direct "Ja!".

Samenvattend in één zin:

Deze paper waarschuwt dat de populaire methode om te checken of AI's "cheaten" door het herhalen van antwoorden (CDD) niet werkt voor kleinere modellen, omdat die modellen slim genoeg zijn om te leren zonder het antwoord letterlijk uit hun hoofd te spreken; betere methoden kijken naar hoe "vertrouwd" de AI met de vraag is, niet naar hoe identiek haar antwoorden zijn.