No Memorization, No Detection: Output Distribution-Based Contamination Detection in Small Language Models

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Studie, als würde man sie einem Freund beim Kaffee erzählen – ohne Fachchinesisch, aber mit ein paar bildhaften Vergleichen.

Das große Problem: Der „gelernte" Schüler

Stell dir vor, du hast einen sehr schlauen Schüler (das ist unser KI-Modell). Du möchtest testen, wie gut er Mathe kann. Aber du hast ein Problem: Vielleicht hat er die Prüfungsfragen schon vorher in seinem Lehrbuch gesehen. Das nennt man Datenkontamination. Wenn er die Antworten einfach auswendig gelernt hat, ist der Test wertlos, weil er nicht wirklich denken muss, sondern nur wiederholt.

Bisher gab es eine neue Methode, um zu prüfen, ob ein Schüler die Fragen auswendig gelernt hat. Sie heißt CDD.

Wie funktioniert die alte Methode (CDD)?

Die Idee hinter CDD war genial einfach:
Stell dir vor, du fragst den Schüler 50-mal dieselbe Matheaufgabe, aber jedes Mal sagst du ihm: „Antworte ein bisschen anders!" (das ist das „Sampling").

Wenn der Schüler die Antwort NICHT auswendig gelernt hat: Er wird jedes Mal eine andere, kreative Lösung finden. Die Antworten sind alle unterschiedlich.
Wenn der Schüler die Antwort AUSWENDIG GELERNT hat: Egal, wie sehr du ihn drängst, „variabel" zu sein, er wird immer wieder genau denselben Satz herunterbeten. Seine Antworten sind alle identisch.

CDD misst also: „Wie sehr klingen die 50 Antworten gleich?" Wenn sie sehr gleich klingen, hat der Schüler die Frage gelernt (kontaminiert).

Die Entdeckung: Warum CDD bei kleinen Modellen versagt

Der Autor dieser Studie hat nun herausgefunden, dass diese Methode bei kleinen KI-Modellen (den „kleinen Schülern") oft komplett versagt.

Hier ist der Clou mit der Analogie:

1. Der kleine Schüler mit dem Notizzettel (LoRA / Parameter-Effizientes Lernen)
Heutzutage passen sich viele KIs neuen Aufgaben an, ohne alles neu zu lernen. Sie schreiben sich nur kleine Notizen auf einen Zettel (das nennt man LoRA).

Das Szenario: Der kleine Schüler hat die Prüfungsfrage gesehen und sie 10-mal auf seinen kleinen Zettel geschrieben. Er hat sie also gelernt.
Aber: Wenn du ihn jetzt fragst, antwortet er trotzdem jedes Mal etwas anders, weil er die Logik verstanden hat, aber nicht die exakte Wort-für-Wort-Reihe auswendig gelernt hat.
Das Ergebnis für CDD: Die Methode schaut auf die Antworten, sieht, dass sie alle unterschiedlich sind, und sagt: „Alles klar, keine Kontamination!" Falsch! Der Schüler hat die Frage gesehen, aber CDD merkt es nicht, weil die Antworten nicht exakt identisch sind. CDD ist blind.

2. Der große Schüler mit dem Gedächtnis (Volles Fine-Tuning)
Wenn man das Modell aber komplett neu trainiert (wie einen Schüler, der das ganze Buch auswendig lernt), dann passiert Folgendes:

Der Schüler merkt sich die Antwort so genau, dass er sie wie ein Roboter herunterbeten muss.
Egal, wie du ihn fragst, er sagt immer exakt dasselbe.
Das Ergebnis für CDD: Jetzt funktioniert die Methode! Sie sieht die identischen Antworten und sagt: „Aha, Kontamination!"

Die harte Wahrheit der Studie

Die Forscher haben getestet, wann genau dieser Wechsel passiert. Sie haben festgestellt:

CDD braucht „Auswendiglernen im strengen Sinne". Es reicht nicht, dass das Modell die Daten kennt. Es muss sie so genau speichern, dass es keine Abweichungen mehr zulässt.
Bei kleinen Modellen und modernen, sparsamen Trainingsmethoden (LoRA) passiert dieses strikte Auswendiglernen oft nicht.
Das Ergebnis: CDD sagt in den meisten Fällen „Nein, alles sauber", obwohl das Modell die Daten eigentlich gesehen hat. Es ist wie ein Diebesalarm, der nur dann klingelt, wenn der Dieb die ganze Wand umreißt, aber nicht, wenn er nur durch ein offenes Fenster klettert.

Was funktioniert besser?

Die Studie zeigt, dass es einfachere Methoden gibt, die immer funktionieren, auch wenn das Modell nicht strikt auswendig gelernt hat:

Perplexität (Verwirrtheit): Wenn das Modell die Frage schon kennt, ist es weniger verwirrt, wenn es sie sieht. Das merkt man an der Wahrscheinlichkeit, mit der es Wörter wählt.
Min-k% Prob: Eine andere Methode, die prüft, ob die „schwierigsten" Wörter im Satz für das Modell plötzlich leicht sind.

Diese Methoden sind wie ein Spürhund. Sie riechen, dass das Modell die Daten schon einmal gesehen hat, auch wenn es sie nicht wortwörtlich auswendig lernt. CDD ist wie ein Bewegungsmelder, der nur dann reagiert, wenn jemand die Tür aufreißt.

Fazit für die Praxis

Wenn du kleine KI-Modelle prüfst (die heutzutage sehr beliebt sind, weil sie schnell und günstig sind), solltest du nicht auf die Methode CDD vertrauen. Sie wird dich täuschen und dir sagen, alles sei sicher, obwohl das Modell die Testdaten schon gesehen hat.

Verlasse dich stattdessen auf Methoden, die die „Verwirrtheit" des Modells messen. Diese sind zuverlässiger, weil sie merken, wenn das Modell die Daten kennt, auch wenn es sie nicht wie ein Roboter herunterbetet.

Kurz gesagt: CDD sucht nach einem perfekten Kopier-Verhalten. Aber oft „lernt" das Modell die Daten nur so gut, dass es sie versteht, aber nicht kopiert. Und genau da wird CDD blind.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „No Memorization, No Detection: Output Distribution-Based Contamination Detection in Small Language Models" von Omer Sela (Tel Aviv University) auf Deutsch.

1. Problemstellung

Die Datenkontamination (das Vorhandensein von Evaluierungsdaten im Trainingsset eines Modells) untergräbt die Zuverlässigkeit von Benchmarks für Sprachmodelle. Während große Modelle (z. B. 7B Parameter) oft gut auf solche Kontaminationen reagieren, ist die Situation bei kleinen Sprachmodellen (Small Language Models, SLMs) weniger klar.

Ein neuer Ansatz, CDD (Contamination Detection via output Distribution), wurde entwickelt, um Kontamination zu erkennen, indem die „Spitzigkeit" (Peakedness) der Ausgabeverteilung gemessen wird. Die Intuition dahinter ist, dass ein Modell, das Daten auswendig gelernt (memorisiert) hat, bei wiederholter Stichprobenziehung (Sampling) fast identische Ausgaben produziert, da die Verteilung auf die memorisierte Antwort kollabiert ist.

Die zentrale Forschungsfrage dieses Papers ist: Ist CDD auch bei kleinen Modellen (70M–410M Parameter) und effizienten Feinabstimmungsmethoden (wie LoRA) zuverlässig, oder hängt seine Wirksamkeit kritisch von der Fähigkeit des Modells zur wörtlichen Memorierung ab?

2. Methodik

Die Studie verwendet kontrollierte Experimente, um die Grenzen von CDD systematisch zu untersuchen.

Modelle: Drei Modelle aus der Pythia-Suite (70M, 160M und 410M Parameter).
Datensätze: GSM8K (Mathematik), HumanEval (Code-Generierung) und MATH (Wettbewerbsmathematik).
Kontaminationsszenario: Ein Teil der Testdaten wird wiederholt (0, 1, 5 oder 10 Mal) in den Trainingsdatensatz eingefügt.
Feinabstimmung (Fine-Tuning): Es wurden verschiedene Konfigurationen getestet, um die Kapazität und Dauer des Trainings zu variieren:
- LoRA (Low-Rank Adaptation): Mit Rank $r=8$ (sehr geringe Kapazität, ~0,1–0,2 % trainierbare Parameter) und $r=256$ (höhere Kapazität, ~4–6 %).
- Vollständiges Fine-Tuning (Full FT): 100 % der Parameter.
- Dauer: 3 und 20 Epochen.
Vergleichsmethoden:
- CDD: Misst die Ähnlichkeit (Edit-Distance) zwischen einer deterministischen Greedy-Ausgabe und 50 stochastischen Temperatur-Samples. Hohe Ähnlichkeit (Peakedness) deutet auf Kontamination hin.
- Baselines:
  - N-Gramm-Überlappung: (Ground-Truth-Referenz, benötigt Zugriff auf Trainingsdaten).
  - Perplexity (PPL): Misst die Unsicherheit des Modells über den Prompt.
  - Min-k% Prob: Misst die Wahrscheinlichkeiten der unwahrscheinlichsten Tokens.

3. Wichtige Beiträge und Erkenntnisse

A. Die Notwendigkeit von Memorierung für CDD

Das Kernergebnis ist, dass CDD nur dann funktioniert, wenn das Feinabstimmung zu einer „Kollaps" der Ausgabeverteilung führt, was typischerweise durch wörtliches Auswendiglernen (Memorization) geschieht.

Bei geringer Kapazität (z. B. LoRA $r=8$ mit 3 Epochen) lernt das Modell zwar aus den kontaminierten Daten (die Trainingsverluste sinken), aber die Ausgabe bleibt divers.
In diesen Fällen liegt die CDD-Genauigkeit bei Chanceniveau (ca. 50 %), obwohl die Daten eindeutig kontaminiert sind.
CDD kann also zwischen „Lernen" und „Memorieren" nicht unterscheiden; es erkennt nur letzteres.

B. Der Schwellenwert der Memorierung (Memorization Threshold)

Es gibt einen scharfen Übergangspunkt, ab dem CDD effektiv wird. Dieser hängt von der Interaktion dreier Faktoren ab:

Modellgröße
Kapazität des Adapters (Rank bei LoRA)
Trainingsdauer

Sobald die trainierbare Kapazität einen bestimmten Schwellenwert überschreitet (z. B. LoRA $r=256$ oder Full FT), springt die CDD-Genauigkeit von 50 % auf über 90 %. Unterhalb dieses Schwellenwerts ist CDD blind.

C. Überlegenheit probabilistischer Methoden

In jedem getesteten Szenario (alle Modellgrößen, Feinabstimmungsmethoden und Kontaminationslevel) übertrafen Perplexity und Min-k% Prob CDD.

Diese Methoden nutzen die interne Wahrscheinlichkeitsverteilung des Modells und können Kontamination bereits erkennen, wenn das Modell die Daten „vertraut" findet, ohne dass die Ausgabeverteilung kollabiert ist.
Besonders kritisch ist dies bei geringen Kontaminationsleveln (z. B. nur 1 Wiederholung des Datensatzes) und bei parameter-effizientem Fine-Tuning (LoRA r=8), wo CDD versagt, während probabilistische Methoden bereits hohe Genauigkeit zeigen.

D. Der „Blind Spot" (Blinder Fleck)

Parameter-effizientes Fine-Tuning (PEFT), das in der Praxis immer häufiger eingesetzt wird, erzeugt oft Kontamination, die CDD nicht detektieren kann. Dies stellt einen „stillschweigenden Fehlermodus" dar: Ein Modell kann als „sauber" durch CDD gehen, obwohl es Evaluierungsdaten auswendig gelernt hat, nur weil die Ausgabe nicht konsistent genug ist.

4. Ergebnisse im Detail

GSM8K Ergebnisse: Bei Pythia-410M mit LoRA $r=8$ und 3 Epochen lag die CDD-Genauigkeit bei 0,50 (Zufall), selbst bei maximaler Kontamination (10 Wiederholungen). Perplexity und Min-k% Prob erkannten die Kontamination jedoch mit hoher Genauigkeit.
Skalierungseffekte: Größere Modelle (410M) memorieren eher als kleinere (70M), aber nur, wenn die Feinabstimmungskapazität ausreicht. Bei LoRA $r=8$ scheitert CDD bei allen Größen.
Hyperparameter-Sensitivität: Eine Variation der CDD-Hyperparameter (Schwellenwert $\alpha$ , Temperatur $t$ , Anzahl der Samples $n$ ) rettete CDD nicht in den Fällen, in denen es versagte. Das Versagen ist also kein Artefakt der Einstellungen, sondern ein fundamentales Problem der Methode bei kleinen Modellen/geringer Kapazität.
Qualitative Analyse: Ein Beispiel zeigt, dass ein LoRA-Modell (r=8) die Struktur der Aufgabe lernt, aber bei jedem Sampling eine andere (falsche) Antwort gibt. Ein voll feinabgestimmtes Modell hingegen gibt bei jedem Sampling exakt die gleiche, memorisierte Antwort. CDD erkennt nur den zweiten Fall.

5. Bedeutung und Implikationen

Warnung vor CDD für SLMs: CDD sollte nicht als alleinige Methode zur Kontaminationserkennung bei kleinen Sprachmodellen verwendet werden, insbesondere wenn parameter-effiziente Methoden (LoRA) zum Einsatz kommen. Es besteht die Gefahr falscher Sicherheit.
Empfehlung: Die Community sollte auf probabilistische Methoden (Perplexity, Min-k% Prob) zurückgreifen, wenn sie Modelle in diesem Größenbereich auditieren. Diese erfordern zwar Zugriff auf die Ausgabe-Wahrscheinlichkeiten (keine Black-Box), sind aber deutlich robuster.
Unterscheidung Lernen vs. Memorierung: Die Studie verdeutlicht, dass ein Modell Daten lernen kann (niedriger Loss), ohne sie so stark zu memorieren, dass die Ausgabeverteilung kollabiert. CDD ist nur ein Indikator für den letzteren Zustand.

Fazit: Die Wirksamkeit von CDD ist nicht universell, sondern stark vom Feinabstimmungsregime abhängig. Bei kleinen Modellen und effizientem Fine-Tuning ist CDD oft wirkungslos, während probabilistische Ansätze zuverlässigere Signale liefern.