Ursprüngliche Autoren: Matthieu Meeus, Anil Ramakrishna, Matthew Grange, Zheng Xu, Luca Melis

Veröffentlicht 2026-06-12

📖 3 Min. Lesezeit☕ Kaffeepausen-Lektüre

Ursprüngliche Autoren: Matthieu Meeus, Anil Ramakrishna, Matthew Grange, Zheng Xu, Luca Melis

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie besitzen eine riesige Bibliothek mit Computercode, wie ein massives Kochbuch voller Millionen von Rezepten. Sie trainieren einen superintelligenten KI-Koch (ein Large Language Model), um jede einzelne Seite dieser Bibliothek zu lesen, damit er das Kochen lernen kann.

Nun stellen Sie sich vor, Sie bitten diesen KI-Koch, ein neues Rezept für „Scharfen Tofu“ zu schreiben.

Die alte Art der Überprüfung (Textuelle Ähnlichkeit)
Früher überprüften Forscher, ob die KI „schummelte“ (auswendig lernte), indem sie nach den Wörtern suchten. Wenn die KI ein Rezept schrieb, das fast exakt wie eines in der Bibliothek aussah – mit denselben Zutaten, derselben Satzstruktur und derselben Rechtschreibung –, sagten sie: „Aha! Sie hat dieses Rezept auswendig gelernt!“

Aber hier liegt das Problem: Zwei Rezepte können genau dasselbe köstliche Gericht zubereiten, aber auf dem Papier völlig unterschiedlich aussehen. Das eine sagt vielleicht „fügen Sie 2 Tassen Mehl hinzu“, während das andere sagt „gießen Sie 480 ml weißes Pulver hinein“. Sie sind funktional identisch (sie backen denselben Kuchen), aber textuell verschieden.

Die neue Entdeckung (Funktionale Memorierung)
Dieses Paper besagt: „Wir haben herausgefunden, dass der KI-Koch die Logik der Rezepte auswendig lernt, nicht nur die Wörter.“

Selbst wenn die KI die Wörter, die Variablennamen und die Satzstruktur ändert, folgt sie vielleicht immer noch heimlich exakt denselben geheimen Schritten aus der Bibliothek. Es ist, als ob die KI eine exakte Geheimformel für eine ganz bestimmte „Geheimsauce“ einer Firma aus der Bibliothek gelernt hätte. Selbst wenn sie ein neues Rezept schreibt, das völlig anders aussendet, verwendet sie immer noch exakt dieselbe Geheimformel und gibt damit das Geschäftsgeheimnis des Unternehmens preis.

Wie sie es erwischt haben (Der Kontrafaktische Test)
Um dies zu beweisen, bauten die Forscher ein kluges Experiment auf, wie einen „Zwillings-Test“:

Der „erfahrene“ Koch (Zielmodell): Diese KI wurde mit der spezifischen Bibliothek trainiert, die die geheimen Rezepte enthält.
Der „naive“ Koch (Referenzmodell): Diese KI ist exakt dasselbe Modell, hat aber diese spezifischen geheimen Rezepte nie gesehen. Sie hat nur die allgemeine Bibliothek gesehen.

Sie baten beide Köche, ein Rezept basierend auf einem einfachen Prompt (wie „Erstelle eine Sauce für Stadt X“) zu schreiben.

Wenn der naive Koch eine zufällige, generische Sauce errät, der erfahrene Koch aber eine Sauce schrieb, die die exakt gleiche geheime Logik wie die Bibliothek verwendete (selbst mit anderen Worten), dann wussten sie, dass der erfahrene Koch die Logik auswendig gelernt hatte.

Die Ergebnisse
Die Studie fand heraus, dass die „Textabgleich“-Detektoren die meisten dieser Fälle übersahen, die „Logikabgleich“-Detektoren sie jedoch erkannten.

Text-Detektoren sagten: „Diese Rezepte sehen unterschiedlich aus. Kein Betrug.“
Logik-Detektoren sagten: „Warte, diese Rezepte erzeugen exakt das gleiche Ergebnis unter Verwendung derselben verborgenen Schritte. Das ist Auswendiglernen!“

Warum es wichtig ist
Das Paper kommt zu dem Schluss, dass wir nicht nur prüfen können, ob eine KI Wörter kopiert. Wir müssen prüfen, ob sie das Gehirn hinter dem Code kopiert. Wenn die proprietären Handelsalgorithmen oder Inhaltsmoderationsregeln eines Unternehmens in den Trainingsdaten enthalten sind, kann die KI diese geheime Logik in einer neuen Tarnung reproduzieren und so sensible Informationen preisgeben, selbst wenn sie kein einziges Wort wortgetreu kopiert.

Zusammenfassend:
Die KI ist nicht nur ein Fotokopierer; sie ist ein Nachahmer. Sie kann die Idee eines geheimen Rezepts lernen und es mit ihrer eigenen Stimme neu schreiben. Die Autoren entwickelten neue Werkzeuge, um die KI dabei zu ertappen, wenn sie diese „Logik-Nachahmung“ betreibt, und zeigten damit auf, dass aktuelle Sicherheitsprüfungen zu sehr auf Rechtschreibung und Grammatik fokussiert sind und die tiefere, gefährlichere Art des Kopierens übersehen.

Technisches Resümee: Detektion von funktionaler Memorierung in Code-Sprachmodellen

Problemstellung

Große Sprachmodelle (LLMs), die auf Code-Korpora trainiert wurden, werden zunehmend für die Codegenerierung eingesetzt. Die bisherige Forschung hat intensiv die „Extraktion von Trainingsdaten“ untersucht, bei der Modelle Trainingsbeispiele wortgetreu oder nahezu wortgetreu reproduzieren. Bestehende Auditierungsmethoden stützen sich jedoch fast ausschließlich auf textuelle Ähnlichkeitsmetriken (z. B. BLEU, Edit-Distanz). Dieser Ansatz versäumt es, ein kritisches Risiko zu erfassen: die funktionale Memorierung.

Code kann funktional äquivalent sein, während er textuell unähnlich ist. Variablen können umbenannt, Kontrollflüsse restrukturiert, Kommentare hinzugefügt oder entfernt oder völlig andere Algorithmen angewandt werden, um dieselbe Logik zu erreichen. Wenn ein LLM proprietäre funktionale Logik (z. B. Handelsalgorithmen, Rekommandationsregeln) aus seinen Trainingsdaten internalisiert und in einer restrukturierten Form reproduziert, werden standardmäßige textbasierte Metriken diese Leckage nicht erkennen. Dieses Paper adresset die Lücke bei der Detektion und Quantifizierung dieser „funktionalen Memorierung“ jenseits oberflächlicher Token-Überlappung.

Methodik

Die Autoren schlagen ein kontrafaktisches Setup vor, um zwischen Memorierung und Generalisierung zu unterscheiden, indem sie die Transparenz des Open-Source-Modells Olmo-3-32B nutzen.

1. Experimentelles Setup

Zielmodell ( $M_T$ ): Der Midtraining-Checkpoint von Olmo-3-32B, der dem Zielcode (CraneCode, eine gefilterte Teilmenge von the-stack-v2-smol) ausgesetzt war.
Referenzmodell ( $M_R$ ): Der Pretraining-Checkpoint von Olmo-3-32B, der dieselbe Architektur und das gleiche Pretraining teilt, aber nicht den spezifischen Midtraining-Daten ausgesetzt war.
Daten: 7.422 Python-Funktionen aus dem CraneCode-Korpus, die mittels eines LLM-as-a-Judge als Inhalten mit „bedeutsamer funktionaler Logik“ (Geschäftsregeln, proprietäre Algorithmen) gefiltert wurden.
Verfahren: Beide Modelle werden mit Funktionssignaturen und bis zu 250 vorangehenden Tokens gepromptet. Die Modelle generieren Fortsetzungen mittels Greedy-Decoding. Die generierte Ausgabe ( $x^*$ ) wird mit den Ground-Truth-Trainingsdaten ( $x$ ) verglichen.

2. Definition der kontrafaktischen funktionalen Memorierung

Ein Sample gilt als kontrafaktisch funktional memoriert, wenn:

Geringe textuelle Überlappung: Die Zielgenerierung weist eine geringe textuelle Ähnlichkeit zum Ground Truth auf ( $SIM_{text} < \tau_{text}$ ).
Hohe funktionale Überlappung: Die Zielgenerierung ist funktional äquivalent zum Ground Truth ( $SIM_{func} \ge \tau_{func}$ ).
Kontrafaktische Divergenz: Das Referenzmodell (unexponiert) produziert für denselben Prompt keine funktional äquivalente Ausgabe.

3. Evaluierungsmetriken

Die Studie verwendet eine umfassende Suite von Metriken zur Messung der Ähnlichkeit, kategorisiert wie folgt:

Textuelle Metriken: Exact Match, BLEU, Edit-Similarity und Longest Common Substring (LCS).
Strukturelle Metriken: CodeBLEU (Syntax- und Data-Flow-Varianten) und Tree-Edit-Distance (TSED).
LLM-as-a-Judge: Drei verschiedene Prompts (Song et al., Nikiema et al. und ein benutzerdefinierter Prompt zur funktionalen Äquivalenz), um die semantische Ähnlichkeit zu bewerten.
Ausführungsbasierte Metriken: HyClone, ein zweistufiger Detektor, der Test-Inputs generiert, beide Funktionen ausführt und die Outputs vergleicht, um die funktionale Äquivalenz zu verifizieren.

Zentrale Beiträge

Formalisierung der funktionalen Memorierung: Das Paper definiert und operationalisiert das Konzept der Extraktion funktionaler Logik aus LLMs ohne wortgetreue Kopie und unterscheidet dies von der Generalisierung.
Kontrafaktisches Framework für Code: Es adaptiert das Framework der kontrafaktischen Memorierung (zuvor für natürliche Sprache verwendet) auf Code und nutzt die spezifische Trainings-Transparenz von Olmo-3, um einen rigorosen „Exposed vs. Unexposed“-Vergleich zu ermöglichen.
Umfassende Metrik-Suite: Die Arbeit evaluiert ein breites Spektrum an Ähnlichkeitsmetriken und zeigt auf, dass textbasierte Metriken unzureichend sind, um funktionale Leckagen zu detektieren.
Empirische Evidenz: Es liefert den ersten groß angelegten Beleg dafür, dass Code-LLMs eine signifikante Rate an funktionaler Memorierung aufweisen, selbst wenn die textuelle Überlappung gering ist.

Ergebnisse

Die Studie analysiert 7.422 Funktionen und stellt systematische Verschiebungen der Ähnlichkeit vom Referenz- zum Zielmodell über alle Metriken hinweg fest.

Wortgetreue Memorierung: Konsistent mit vorangegangenen Arbeiten produziert das Zielmodell exakte Übereinstimmungen (0,11 %) und nahezu wortgetreue Übereinstimmungen (BLEU $\ge$ 0,75, 0,58 %), die das Referenzmodell nicht produziert.
Funktionale Memorierung:
- Strukturelle Metriken: CodeBLEU (DFG) und TSED identifizierten 1,8 % bzw. 2,1 % der Samples als kontrafaktisch memoriert, trotz niedriger BLEU-Scores.
- LLM-as-a-Judge: Unter Verwendung des konservativen funktionalen Äquivalenz-Prompts der Autoren wurden 3,9 % der Samples als funktional memoriert identifiziert (niedriger BLEU, hohe funktionale Ähnlichkeit und kontrafaktische Divergenz). Andere Prompts ergaben höhere Raten (bis zu 14,0 %), was auf eine Sensitivität gegenüber dem Prompt-Design hindeutet.
- Ausführungsbasiert: Unter dem strengsten HyClone-Test wurden 0,28 % der Generationen als funktional identisch mit den Trainingsdaten verifiziert, während das Referenzmodell dies nicht tat. Dies wird als untere Schranke betrachtet, bedingt durch Herausforderungen bei der Ausführung (z. B. fehlende Abhängigkeiten, Klassen-Status).
Metrik-Korrelation: Textuelle Metriken (BLEU, Edit) sind hochgradig miteinander korreliert, aber schwach mit ausführungsbasierten Metriken (HyClone) korreliert, was bestätigt, dass sie unterschiedliche Signale erfassen.

Beispiel: Das Paper hebt einen Fall hervor, in dem das Zielmodell eine hartcodierte Provisionslogik aus den Trainingsdaten mittels einer restrukturierten Implementierung (andere Variablennamen und Kontrollfluss) reproduzierte, während das Referenzmodell unzusammenhängende Logik halluzinierte. Textuelle Metriken (BLEU = 0,26) versäumten es, dies zu flaggen, während funktionale Metriken (LLM-Judge = 0,8, Execution = 0,95) erfolgreich waren.

Bedeutung und Behauptungen

Das Paper behauptet, dass aktuelle Auditierungsregime, die rein auf textueller Überlappung basieren, für Code-Modelle unzureichend sind. Die Ergebnisse zeigen, dass die funktionale Memorierung – gemessen durch angemessene funktionale Metriken – in einer ähnlichen Größenordnung wie die nahezu wortgetreue Memorierung auftritt.

Die Autoren stellen fest:

Modelle können proprietäre Logik internalisieren und reproduzieren, selbst wenn die Oberflächenform signifikant verändert ist.
Bestehende Datenschutz- und IP-Schutzmechanismen, die auf Textähnlichkeit basieren, unterschätzen wahrscheinlich das Risiko der Trainingsdaten-Leckage.
Es besteht ein dringender Bedarf an Auditierungsmetriken, die über die textuelle Überlappung hinausgehen und strukturelle Analysen, LLM-basierte semantische Beurteilung und ausführungsbasierte Verifizierung einbeziehen.

Die Arbeit schließt mit dem Hinweis auf die Notwendigkeit robusterer Auditierungsregime und verbesserter Messverfahren für funktionale Ähnlichkeit und merkt an, dass aktuelle ausführungsbasierte Methoden noch durch die Komplexität realer Code-Umgebungen limitiert sind.

Detecting Functional Memorization in Code Language Models