Membership Inference Attacks on Tokenizers of Large Language Models

Diese Studie identifiziert Tokenizer als bisher übersehene Angriffsvektoren für Membership-Inference-Angriffe auf Large Language Models, demonstriert deren Verwundbarkeit durch fünf Angriffsmethoden und schlägt eine adaptive Verteidigung vor, um die damit verbundenen Datenschutzrisiken zu mindern.

Meng Tong, Yuntao Du, Kejiang Chen, Weiming Zhang, Ninghui Li

Veröffentlicht 2026-03-10
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Der unsichtbare Fingerabdruck: Wie man herausfindet, was in einem KI-Modell „gespeichert" wurde

Stell dir vor, du hast einen riesigen Kochbuch-Roboter (eine Large Language Model oder LLM), der alles auf der Welt kochen kann. Damit dieser Roboter überhaupt funktioniert, braucht er zwei Dinge:

  1. Den eigentlichen Koch (das neuronale Netz, das die Rezepte versteht).
  2. Ein Wörterbuch (den Tokenizer), das lange Sätze in kleine, handliche Wörterchen (Tokens) zerlegt, damit der Koch sie verarbeiten kann.

Bisher haben Sicherheitsforscher versucht, herauszufinden, ob der Roboter bestimmte geheime Rezepte (z. B. private Daten oder urheberrechtlich geschützte Texte) in seinem Gedächtnis hat, indem sie den Koch selbst befragten. Das war aber wie der Versuch, einen Elefanten zu wiegen, indem man ihn auf einer Waage für Hamster ablegt – es funktionierte nicht gut, weil die Waage (die Testmethoden) zu klein war und das Ergebnis oft verzerrt.

Die neue Idee der Forscher:
Statt den Koch zu fragen, haben sie sich den Wörterbuch-Hersteller (den Tokenizer) genauer angesehen. Und das ist der Clou: Das Wörterbuch ist viel einfacher zu bauen und zu analysieren als der ganze Koch.

🧩 Die Metapher: Der Puzzle-Baumeister

Stell dir vor, der Tokenizer ist ein Baumeister, der aus einem riesigen Haufen Buchstaben (dem Internet) ein Puzzle erstellt. Er nimmt die häufigsten Buchstabenkombinationen und macht daraus neue, feste Puzzle-Steine (Tokens).

  • Das Problem: Wenn der Baumeister ein bestimmtes, seltenes Buch (z. B. ein privates Reddit-Forum) in seinen Stapel wirft, entstehen dabei einzigartige Puzzle-Steine, die es sonst nirgendwo gibt.
  • Der Angriff: Ein Hacker (der Angreifer) kann sich das fertige Puzzle-Wörterbuch des KI-Modells ansehen (diese sind oft öffentlich, damit man weiß, wie viel man für die Nutzung zahlt). Wenn er darin diese einzigartigen Steine findet, kann er fast zu 100 % sicher sein: „Aha! Dieses spezielle Buch war im Trainingsmaterial des Baumeisters!"

Das ist wie wenn du einen Teller mit Suppe siehst und darin ein ganz spezielles, exotisches Kraut findest, das nur in einem bestimmten Garten wächst. Du weißt sofort: „Der Koch muss aus diesem Garten kommen."

🔍 Die fünf Werkzeuge der Angreifer

Die Forscher haben fünf verschiedene Methoden entwickelt, um diesen „exotischen Kräutern" auf die Spur zu kommen:

  1. Der Vergleich der Baupläne (Merge Similarity): Sie bauen viele eigene Puzzle-Wörterbücher und vergleichen, in welcher Reihenfolge die Steine zusammengefügt wurden. Wenn die Reihenfolge fast identisch ist, war das Ziel-Datenmaterial dabei. (Leider war diese Methode etwas ungenau).
  2. Der Überlappungs-Check (Vocabulary Overlap): Sie schauen sich nur die seltenen Steine an. Wenn das Ziel-Wörterbuch viele dieser seltenen Steine hat, die auch in den eigenen Test-Wörterbüchern vorkommen, ist es ein Treffer. Das funktioniert sehr gut, ist aber rechenintensiv.
  3. Die Häufigkeits-Schätzung (Frequency Estimation): Das ist der „Clevere". Statt viele Wörterbücher zu bauen, schaut er sich an, wie oft ein Stein vorkommt. Wenn ein Stein so selten ist, dass er nur in dem verdächtigen Buch vorkommt, aber trotzdem im fertigen Wörterbuch ist, dann muss dieses Buch im Training gewesen sein. Das ist schnell und effizient.
  4. Naive Wahrscheinlichkeit & Kompression: Zwei weitere Methoden, die versuchen, durch statistische Tricks oder wie gut sich Texte komprimieren lassen, auf den Ursprung zu schließen.

📈 Was haben sie herausgefunden?

  • Je größer, desto gefährlicher: Je mehr Daten die KI lernt und je größer ihr Wörterbuch wird (was man für bessere KI-Ergebnisse braucht), desto mehr dieser „einzigartigen Steine" landet darin. Das macht die KI also unsicherer für Datenschutz.
  • Große Datenmengen sind leicht zu erkennen: Wenn ein ganzer Datensatz (z. B. ein ganzes Forum) verwendet wurde, ist es für die Angreifer viel einfacher, das zu beweisen als bei einem einzelnen Satz.
  • Der Schutz ist teuer: Man kann versuchen, die seltenen Steine aus dem Wörterbuch zu entfernen (wie wenn man das exotische Kraut aus der Suppe fischt). Das schützt zwar ein bisschen, aber die Suppe schmeckt dann nicht mehr so gut (die KI wird weniger effizient).

🛡️ Was bedeutet das für uns?

Bisher dachte man, die größte Gefahr für die Privatsphäre in KI-Modellen käme vom „Koch" (dem Modell selbst). Diese Arbeit zeigt: Der Türsteher (der Tokenizer) ist auch ein schwaches Glied.

Da viele Firmen ihre Wörterbücher offenlegen (um transparent zu sein, wie viel Token sie zählen), geben sie Angreifern quasi den Schlüssel, um zu sehen, welche Daten im Training waren. Das ist ein riesiges Problem für Urheberrechte und Privatsphäre.

Die Lösung? Wir brauchen neue Sicherheitsmechanismen, die speziell für diese Wörterbücher entwickelt werden, damit wir weiterhin leistungsfähige KIs haben, ohne dass unsere privaten Daten wie Postkarten im offenen Briefkasten liegen.

Kurz gesagt: Die Forscher haben entdeckt, dass man an den „Fingerabdrücken" im Wörterbuch einer KI ablesen kann, welche geheimen Daten sie gelernt hat – und das ist viel einfacher zu tun als bisher gedacht.