Membership Inference Attacks on Tokenizers of Large Language Models

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Der unsichtbare Fingerabdruck: Wie man herausfindet, was in einem KI-Modell „gespeichert" wurde

Stell dir vor, du hast einen riesigen Kochbuch-Roboter (eine Large Language Model oder LLM), der alles auf der Welt kochen kann. Damit dieser Roboter überhaupt funktioniert, braucht er zwei Dinge:

Den eigentlichen Koch (das neuronale Netz, das die Rezepte versteht).
Ein Wörterbuch (den Tokenizer), das lange Sätze in kleine, handliche Wörterchen (Tokens) zerlegt, damit der Koch sie verarbeiten kann.

Bisher haben Sicherheitsforscher versucht, herauszufinden, ob der Roboter bestimmte geheime Rezepte (z. B. private Daten oder urheberrechtlich geschützte Texte) in seinem Gedächtnis hat, indem sie den Koch selbst befragten. Das war aber wie der Versuch, einen Elefanten zu wiegen, indem man ihn auf einer Waage für Hamster ablegt – es funktionierte nicht gut, weil die Waage (die Testmethoden) zu klein war und das Ergebnis oft verzerrt.

Die neue Idee der Forscher:
Statt den Koch zu fragen, haben sie sich den Wörterbuch-Hersteller (den Tokenizer) genauer angesehen. Und das ist der Clou: Das Wörterbuch ist viel einfacher zu bauen und zu analysieren als der ganze Koch.

🧩 Die Metapher: Der Puzzle-Baumeister

Stell dir vor, der Tokenizer ist ein Baumeister, der aus einem riesigen Haufen Buchstaben (dem Internet) ein Puzzle erstellt. Er nimmt die häufigsten Buchstabenkombinationen und macht daraus neue, feste Puzzle-Steine (Tokens).

Das Problem: Wenn der Baumeister ein bestimmtes, seltenes Buch (z. B. ein privates Reddit-Forum) in seinen Stapel wirft, entstehen dabei einzigartige Puzzle-Steine, die es sonst nirgendwo gibt.
Der Angriff: Ein Hacker (der Angreifer) kann sich das fertige Puzzle-Wörterbuch des KI-Modells ansehen (diese sind oft öffentlich, damit man weiß, wie viel man für die Nutzung zahlt). Wenn er darin diese einzigartigen Steine findet, kann er fast zu 100 % sicher sein: „Aha! Dieses spezielle Buch war im Trainingsmaterial des Baumeisters!"

Das ist wie wenn du einen Teller mit Suppe siehst und darin ein ganz spezielles, exotisches Kraut findest, das nur in einem bestimmten Garten wächst. Du weißt sofort: „Der Koch muss aus diesem Garten kommen."

🔍 Die fünf Werkzeuge der Angreifer

Die Forscher haben fünf verschiedene Methoden entwickelt, um diesen „exotischen Kräutern" auf die Spur zu kommen:

Der Vergleich der Baupläne (Merge Similarity): Sie bauen viele eigene Puzzle-Wörterbücher und vergleichen, in welcher Reihenfolge die Steine zusammengefügt wurden. Wenn die Reihenfolge fast identisch ist, war das Ziel-Datenmaterial dabei. (Leider war diese Methode etwas ungenau).
Der Überlappungs-Check (Vocabulary Overlap): Sie schauen sich nur die seltenen Steine an. Wenn das Ziel-Wörterbuch viele dieser seltenen Steine hat, die auch in den eigenen Test-Wörterbüchern vorkommen, ist es ein Treffer. Das funktioniert sehr gut, ist aber rechenintensiv.
Die Häufigkeits-Schätzung (Frequency Estimation): Das ist der „Clevere". Statt viele Wörterbücher zu bauen, schaut er sich an, wie oft ein Stein vorkommt. Wenn ein Stein so selten ist, dass er nur in dem verdächtigen Buch vorkommt, aber trotzdem im fertigen Wörterbuch ist, dann muss dieses Buch im Training gewesen sein. Das ist schnell und effizient.
Naive Wahrscheinlichkeit & Kompression: Zwei weitere Methoden, die versuchen, durch statistische Tricks oder wie gut sich Texte komprimieren lassen, auf den Ursprung zu schließen.

📈 Was haben sie herausgefunden?

Je größer, desto gefährlicher: Je mehr Daten die KI lernt und je größer ihr Wörterbuch wird (was man für bessere KI-Ergebnisse braucht), desto mehr dieser „einzigartigen Steine" landet darin. Das macht die KI also unsicherer für Datenschutz.
Große Datenmengen sind leicht zu erkennen: Wenn ein ganzer Datensatz (z. B. ein ganzes Forum) verwendet wurde, ist es für die Angreifer viel einfacher, das zu beweisen als bei einem einzelnen Satz.
Der Schutz ist teuer: Man kann versuchen, die seltenen Steine aus dem Wörterbuch zu entfernen (wie wenn man das exotische Kraut aus der Suppe fischt). Das schützt zwar ein bisschen, aber die Suppe schmeckt dann nicht mehr so gut (die KI wird weniger effizient).

🛡️ Was bedeutet das für uns?

Bisher dachte man, die größte Gefahr für die Privatsphäre in KI-Modellen käme vom „Koch" (dem Modell selbst). Diese Arbeit zeigt: Der Türsteher (der Tokenizer) ist auch ein schwaches Glied.

Da viele Firmen ihre Wörterbücher offenlegen (um transparent zu sein, wie viel Token sie zählen), geben sie Angreifern quasi den Schlüssel, um zu sehen, welche Daten im Training waren. Das ist ein riesiges Problem für Urheberrechte und Privatsphäre.

Die Lösung? Wir brauchen neue Sicherheitsmechanismen, die speziell für diese Wörterbücher entwickelt werden, damit wir weiterhin leistungsfähige KIs haben, ohne dass unsere privaten Daten wie Postkarten im offenen Briefkasten liegen.

Kurz gesagt: Die Forscher haben entdeckt, dass man an den „Fingerabdrücken" im Wörterbuch einer KI ablesen kann, welche geheimen Daten sie gelernt hat – und das ist viel einfacher zu tun als bisher gedacht.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Membership Inference Attacks (MIAs) sind eine etablierte Methode, um die Privatsphärenrisiken von maschinellen Lernmodellen zu bewerten, indem festgestellt wird, ob ein bestimmter Datensatz im Trainingsset eines Models enthalten war. Bei der Anwendung auf vortrainierte Large Language Models (LLMs) stoßen diese Angriffe jedoch auf erhebliche Herausforderungen:

Fehlende Ground-Truth-Daten: Um MIAs fair zu evaluieren, müsste ein Angreifer ein LLM von Grund auf neu trainieren, was enorme Rechenkosten verursacht. Daher nutzen existierende Studien oft bereits vortrainierte Modelle, was zu Verteilungsverschiebungen (Distribution Shifts) und falsch beschrifteten Proben führt.
Größenunterschiede: Die evaluierten Modelle sind oft deutlich kleiner als in der Praxis eingesetzte kommerzielle LLMs, was die Übertragbarkeit der Ergebnisse einschränkt.
Schwache Signale: Bei großen Modellen nimmt das Überanpassungssignal (Overfitting) für einzelne Datenpunkte ab, was die Erkennung erschwert.

Das Papier identifiziert den Tokenizer als bisher übersehenen Angriffsvektor. Tokenizer sind für die Umwandlung von Rohtext in Token zuständig und werden oft zusammen mit dem LLM open-sourced (z. B. zur transparenten Abrechnung). Da Tokenizer effizient von Grund auf trainiert werden können und ihre Trainingsdaten repräsentativ für das gesamte LLM-Pretraining sind, bieten sie eine ideale Basis für MIAs, die die oben genannten Limitationen umgeht.

2. Methodik

Die Autoren stellen fünf Angriffsmethoden vor, die darauf abzielen, die Zugehörigkeit eines Datensatzes zum Trainingskorpus des Tokenizers zu inferieren. Der Kern der Angriffe basiert auf der Beobachtung, dass Tokenizer durch das Byte-Pair-Encoding (BPE)-Verfahren trainiert werden, bei dem häufige Zeichenkombinationen iterativ zu neuen Tokens zusammengeführt werden.

A. Angriffsvektoren

MIA via Merge Similarity (Baseline):
- Idee: Vergleich der Reihenfolge der Token-Zusammenführungen (Merge Order) zwischen einem Ziel-Tokenizer und Shadow-Tokenizern (die mit und ohne den Ziel-Datensatz trainiert wurden).
- Ergebnis: Diese Methode zeigte schwache Ergebnisse, da sich die globalen Verteilungen der Merge-Orders zwischen den Sets kaum unterscheiden.
MIA via Vocabulary Overlap (Verbessert):
- Idee: Fokussierung auf distinktive Tokens (Tokens, die in einem spezifischen Datensatz häufiger vorkommen und daher in der Merge-Reihenfolge des Ziel-Tokenizers früher oder anders erscheinen).
- Methode: Es werden Shadow-Tokenizer trainiert. Der Angreifer berechnet den Jaccard-Index für die Überlappung dieser distinktiven Tokens zwischen dem Ziel-Tokenizer und den Shadow-Modellen. Eine hohe Überlappung deutet auf eine Mitgliedschaft hin.
- Nachteil: Erfordert das Training vieler Shadow-Tokenizer (z. B. 96), was rechenintensiv ist.
MIA via Frequency Estimation (Effizient):
- Idee: Nutzung der statistischen Eigenschaften, dass distinktive Tokens in den Trainingsdaten des Ziel-Tokenizers eine hohe relative Häufigkeit haben, aber im Gesamtkorpus selten sind.
- Methode: Statt vieler Shadow-Tokenizer wird nur ein Shadow-Tokenizer trainiert. Die Methode nutzt das Potenzgesetz (Power Law), um die Frequenz von Tokens basierend auf ihrer Merge-Index-Position zu schätzen. Ein neuer Metrik, RTF-SI (Relative Token Frequency with Self-Information), wird berechnet, um zu prüfen, ob das Vorhandensein bestimmter Tokens im Ziel-Vokabular zwingend das Vorhandensein des Ziel-Datensatzes im Training erfordert.
- Vorteil: Deutlich geringerer Rechenaufwand bei hoher Effektivität.
Zusätzliche Baselines:
- MIA via Naive Bayes: Schätzung der Wahrscheinlichkeit, dass Tokens aus dem Ziel-Datensatz stammen.
- MIA via Compression Rate: Prüfung, ob der Ziel-Datensatz vom Tokenizer besser komprimiert wird (höhere Bytes-per-Token-Rate bei Nicht-Mitgliedschaft).

B. Verteidigungsmechanismen (Adaptive Defense)

Um die Privatsphäre zu schützen, schlagen die Autoren zwei Abwehrmaßnahmen vor:

Min-Count-Mechanismus: Tokens, die in den Trainingsdaten weniger als eine bestimmte Schwelle ( $n_{min}$ ) vorkommen, werden aus dem Vokabular entfernt. Dies reduziert die Angriffsfläche, verschlechtert jedoch die Komprimierungseffizienz (Utility) des Tokenizers.
Differential Privacy (DP): Anwendung des Exponential-Mechanismus während des BPE-Trainings, um das Zusammenführen von Tokens zu randomisieren und so die Mitgliedschaftsinformation zu verschleiern.

3. Wichtige Beiträge

Neuer Angriffsvektor: Erste systematische Untersuchung von MIAs auf Tokenizer von LLMs.
Überwindung von Evaluierungsproblemen: Da Tokenizer effizient von Grund auf trainiert werden können, entfallen Probleme wie Verteilungsverschiebungen oder falsche Labels, die bei direkten LLM-Angriffen auftreten.
Entwicklung von Angriffsmethoden: Vorstellung von fünf Angriffstechniken, wobei „Vocabulary Overlap" und „Frequency Estimation" als besonders effektiv identifiziert wurden.
Analyse von Skalierungsgesetzen: Nachweis, dass die Vergrößerung des Vokabulars (zur Verbesserung der LLM-Leistung) die Anfälligkeit für MIAs erhöht.
Praktische Evaluierung: Tests an Millionen von Internet-Daten (C4-Korpus) und Vergleich mit kommerziellen Tokenizern (OpenAI-o200k, DeepSeek-R1, etc.).

4. Ergebnisse

Die Experimente ergaben folgende Schlüsselerkenntnisse:

Hohe Erfolgswahrscheinlichkeit: Die Angriffe „Vocabulary Overlap" und „Frequency Estimation" erzielten starke Ergebnisse.
- Bei einem Vokabular von 200.000 Tokens erreichte „Vocabulary Overlap" einen AUC-Score von 0,771.
- „Frequency Estimation" erreichte einen AUC-Score von 0,740.
Einfluss der Vokabulargröße: Mit zunehmender Größe des Vokabulars (Skalierung der LLMs) steigt die Anfälligkeit für MIAs, da mehr distinktive Tokens in das Vokabular aufgenommen werden.
Einfluss der Datensatzgröße: Die Angriffe sind bei größeren Datensätzen (mehr Datenpunkte) deutlich genauer. Für Datensätze mit 800–1200 Proben stieg der AUC auf 0,882 (Vocabulary Overlap).
Effizienz: „Frequency Estimation" ist deutlich effizienter als „Vocabulary Overlap", da nur ein Shadow-Tokenizer benötigt wird (Trainingszeit reduziert sich von Stunden auf Minuten bei großen Datensätzen).
Reale Tokenizer: Auch kommerzielle Tokenizer (wie OpenAI-o200k und DeepSeek-R1) enthalten distinktive Tokens, die für solche Angriffe genutzt werden können.
Verteidigung: Der Min-Count-Mechanismus reduziert die Angriffserfolgsrate, führt aber zu einem messbaren Verlust der Komprimierungseffizienz (höhere Bytes pro Token). Differential Privacy bietet theoretischen Schutz, verschlechtert jedoch ebenfalls die Utility.

5. Bedeutung und Fazit

Das Papier hebt hervor, dass Tokenizer ein kritischer, aber oft übersehener Schwachpunkt für die Privatsphäre in LLMs darstellen.

Privatsphärenrisiko: Da Tokenizer oft offen zugänglich sind, können Angreifer ohne Zugriff auf das eigentliche LLM-Modell Rückschlüsse auf das Trainingskorpus ziehen (z. B. ob urheberrechtlich geschütztes oder sensibles Datenmaterial verwendet wurde).
Skalierungsdilemma: Die aktuelle Praxis, LLMs durch größere Vokabulare leistungsfähiger zu machen, erhöht unbeabsichtigt das Risiko von Privacy-Leaks.
Handlungsbedarf: Es besteht ein dringender Bedarf an privatsphäreschonenden Mechanismen speziell für Tokenizer. Die vorgeschlagenen Abwehrmaßnahmen (Min-Count, DP) sind ein erster Schritt, erfordern jedoch einen Kompromiss zwischen Sicherheit und Effizienz.

Die Autoren betonen, dass ihre Arbeit nicht dazu dienen soll, Angriffe zu erleichtern, sondern die Sicherheitslücken aufzudecken, um die Entwicklung sichererer und vertrauenswürdigerer LLM-Systeme zu fördern. Der Code und die Daten sind als Open Science verfügbar.

Membership Inference Attacks on Tokenizers of Large Language Models

🕵️‍♂️ Der unsichtbare Fingerabdruck: Wie man herausfindet, was in einem KI-Modell „gespeichert" wurde

🧩 Die Metapher: Der Puzzle-Baumeister

🔍 Die fünf Werkzeuge der Angreifer

📈 Was haben sie herausgefunden?

🛡️ Was bedeutet das für uns?

1. Problemstellung

2. Methodik

A. Angriffsvektoren

B. Verteidigungsmechanismen (Adaptive Defense)

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers