Membership Inference Attacks on Tokenizers of Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een Grote Taalmodel (LLM) zoals ChatGPT of DeepSeek een enorm, slim brein is. Maar voordat dit brein kan denken, moet het eerst leren lezen. En om te leren lezen, moet het eerst leren "tellen" in woorden.

Hier komt de Tokenizer (de tokenisator) om de hoek kijken.

Wat is een Tokenizer? (De Vertaler)

Een tokenizer is als een super-snel vertaalboekje of een puzzelmeester.

Als je de zin "Ik hou van AI" typt, ziet de computer niet als één zin.
De tokenizer breekt dit af in stukjes (tokens): ["Ik", " hou", " van", " AI"].
Zonder dit boekje zou het brein van de AI niet weten wat het moet doen.

In de echte wereld maken bedrijven zoals OpenAI en Google deze boekjes openbaar. Waarom? Om eerlijk te zijn: als je een bericht stuurt, betaal je per "stukje" (token). Ze moeten laten zien hoe ze dat berekenen.

Het Nieuwe Gevaar: De "Geheime Lijst"

De onderzoekers van dit paper ontdekken iets verrassends en engs: Dit openbare boekje kan verraden welke geheime boeken de AI heeft gelezen.

Stel je voor dat een dief een lijst van woorden in een bibliotheek vindt. Hij ziet dat er een heel zeldzaam woord in staat, bijvoorbeeld "Dumal" (een naam van een persoon).

Als dit woord in het boekje staat, betekent dat waarschijnlijk dat de AI dit woord ergens in zijn training heeft gezien.
Als de AI dit woord niet had gezien, zou het waarschijnlijk niet in het boekje staan, omdat het te zeldzaam was.

De onderzoekers zeggen: "We hoeven niet het hele brein van de AI te hacken. We hoeven alleen maar naar dit boekje te kijken om te weten of een bepaald document (bijvoorbeeld een Reddit-bericht van jou) in de training zat."

Hoe werkt de aanval? (De Drie Spionnen)

De onderzoekers hebben vijf manieren bedacht om dit te doen. Laten we de drie belangrijkste vergelijken met speurwerk:

De "Vergelijkende Speler" (MIA via Vocabulary Overlap):
- De analogie: Stel je voor dat je twintig koks hebt die allemaal een eigen receptenboek maken. Je vraagt ze allemaal om een boek te maken zonder jouw geheim recept. Dan maak je één boek met jouw recept.
- De truc: Als je jouw geheim recept in het echte boekje van de AI ziet staan, en dat woord komt overeen met de woorden in jouw "met-recept"-boekje, dan weet je: "Aha! Dit woord kwam uit mijn recept!"
- Resultaat: Dit werkt heel goed. Ze kunnen met 77% zekerheid zeggen of een dataset (een verzameling teksten) wel of niet gebruikt is.
De "Statistiek-Deurwaarder" (MIA via Frequency Estimation):
- De analogie: Deze methode is slimmer en sneller. In plaats van twintig koks te hebben, kijkt de spion alleen naar hoe vaak woorden voorkomen.
- De truc: Als een woord heel zeldzaam is, maar toch in het boekje van de AI staat, betekent dat bijna zeker dat het uit een specifieke bron komt. Het is alsof je een zeldzame bloem in een tuin ziet staan en weet: "Die kan alleen maar van die ene specifieke tuinier komen."
- Resultaat: Dit werkt bijna net zo goed als de eerste methode, maar is veel sneller en goedkoper.
De "Snelheidstest" (MIA via Merge Similarity):
- Dit is de eerste methode die ze probeerden. Ze keken naar de volgorde waarin woorden werden samengevoegd.
- Resultaat: Dit werkte niet zo goed. Het was te rommelig, alsof je probeert een verhaal te raden door alleen naar de lettergrepen te kijken.

Waarom is dit een probleem?

Schalen maakt het erger: Hoe slimmer de AI wordt, hoe groter het woordenboekje (tokenizer) wordt. De onderzoekers ontdekten dat grotere woordenboeken kwetsbaarder zijn. Het is alsof je een groter raam hebt: hoe groter het raam, hoe makkelijker het is om naar binnen te kijken.
Grote datasets zijn makkelijker te spotten: Als een bedrijf een heel groot bestand (bijvoorbeeld 1000 Reddit-berichten) heeft gebruikt, is het voor de spion makkelijker om dat te ontdekken dan als ze maar één klein berichtje hebben gebruikt.

Hoe kunnen we ons verdedigen? (De Schildwacht)

De onderzoekers bieden ook een oplossing, maar er is een prijs voor:

De "Min-Count" Muur: Je kunt woorden uit het boekje verwijderen die te zeldzaam zijn.
- Het nadeel: Als je te veel rare woorden verwijdert, wordt het boekje minder handig. De AI moet dan meer stukjes gebruiken om dezelfde zin te zeggen. Dat kost meer geld (meer tokens) en vertraagt de AI.
Differentiële Privacy (DP): Dit is als ruis toevoegen aan het boekje. Het maakt het onmogelijk om te weten of een specifiek woord erin staat of niet.
- Het nadeel: Ook hier wordt de kwaliteit van het boekje iets minder.

Conclusie in één zin

Dit paper waarschuwt dat we te veel vertrouwen hebben in de openbaarheid van de "woordenboeken" van AI. Door simpelweg naar deze lijsten te kijken, kunnen hackers achterhalen welke geheime of gevoelige gegevens een AI heeft geleerd, en hoe groter de AI wordt, hoe makkelijker dit wordt.

De les: Als je een AI bouwt, moet je niet alleen het brein beschermen, maar ook het woordenboekje dat het gebruikt.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Membership Inference Attacks (MIAs) zijn een veelgebruikte techniek om privacyrisico's van machine learning-modellen te beoordelen door te bepalen of een specifiek data-exemplaar deel uitmaakte van de trainingsset. Bij het toepassen van MIAs op voorgeïmplementeerde Large Language Models (LLMs) ontstaan echter aanzienlijke uitdagingen die de betrouwbaarheid van evaluaties ondermijnen:

Fout gelabelde steekproeven: Het is moeilijk om met zekerheid te weten welke data exact is gebruikt voor het trainen van een commercieel LLM.
Verschuivingen in verdeling (Distribution Shifts): De data die wordt gebruikt voor evaluatie verschilt vaak van de echte trainingsdata.
Grootte-mismatch: Veel bestaande evaluaties gebruiken kleine, open-source modellen (bijv. Pythia-12B) in plaats van de enorme modellen die in de praktijk worden ingezet (bijv. DeepSeek-R1-671B), wat de generaliseerbaarheid beperkt.
Hoge kosten: Het opnieuw trainen van een LLM vanaf nul voor een eerlijke evaluatie is computationeel onhaalbaar.

De auteurs stellen dat de tokenizer (het onderdeel dat tekst omzet in tokens) een over het hoofd gezien maar kritiek zwakke schakel is. Tokenizers worden vaak open-source gemaakt (voor transparante facturatie), zijn relatief klein en kunnen efficiënt vanaf nul worden getraind met data die representatief is voor de LLM-pretraining.

Methodologie

De auteurs introduceren de tokenizer als een nieuw aanvalspunt voor MIAs. In plaats van de output van het volledige LLM te analyseren, analyseren ze het vocabulaire en de merge-volgorde van de tokenizer. Er worden vijf aanvalsmethoden gepresenteerd:

MIA via Merge Similarity (Basis):
- Concept: Vergelijkt de volgorde waarin tokens worden samengevoegd (merge order) in een doel-tokenizer met die van "shadow tokenizers" (bijgestelde modellen) die wel of niet de doel-dataset bevatten.
- Beperking: De globale verdeling van merge-volgorde lijkt te veel op elkaar, waardoor het onderscheid tussen leden en niet-leden zwak is.
MIA via Vocabulary Overlap (Verbeterd):
- Concept: Focust op "distinctieve tokens" (tokens die uniek of zeer frequent zijn in de doel-dataset). Als deze tokens significant overlappen met het vocabulaire van de doel-tokenizer, is de kans groot dat de dataset deel uitmaakte van de training.
- Techniek: Gebruikt de Jaccard-index om de overlap van deze distinctieve tokens te meten tussen shadow-tokenizers en de doel-tokenizer.
- Nadeel: Vereist het trainen van veel shadow-tokenizers (bijv. 96), wat tijdrovend is.
MIA via Frequency Estimation (Efficiënt):
- Concept: Analyseert of de aanwezigheid van specifieke tokens in het vocabulaire noodzakelijk is afhankelijk van de aanwezigheid van de doel-dataset.
- Techniek: Introduceert een nieuwe metric: Relative Token Frequency with Self-information (RTF-SI). Deze metric combineert de relatieve frequentie van een token in de dataset met de "zelfinformatie" (hoe zeldzaam het is in het totale vocabulaire).
- Efficiëntie: Gebruikt de power-law verdeling van tokenfrequenties om de frequentie in de trainingsdata te schatten zonder de data direct te hoeven zien. Hierdoor is slechts één shadow-tokenizer nodig, wat de rekentijd drastisch verlaagt.
Aanvullende methoden:
- MIA via Naive Bayes: Benadert de kans dat een token uit de doel-dataset komt.
- MIA via Compression Rate: Test of de tokenizer de doel-dataset beter comprimeert dan andere data (op basis van het trainingsdoel van tokenizers).

Experimentele Opzet

Data: Miljoenen webpagina's van het C4-corpus, waarbij elke website als een aparte dataset wordt behandeld.
Doel: Trainen van tokenizers met vocabulairegroottes variërend van 80.000 tot 200.000 tokens, vergelijkbaar met state-of-the-art LLMs (zoals OpenAI-o200k en DeepSeek-R1).
Validatie: Er werd gecontroleerd op distributiesverschuivingen (geen signaal gevonden, AUC ~0.51), wat de eerlijkheid van de evaluatie bevestigt.

Belangrijkste Resultaten

Hoge Succespercentages:
- MIA via Vocabulary Overlap bereikte een AUC-score van 0,771 op een tokenizer met 200.000 tokens.
- MIA via Frequency Estimation bereikte een vergelijkbare AUC van 0,740, maar met aanzienlijk minder rekentijd (onder de 20 minuten voor duizenden datasets, versus uren voor de overlap-methode).
- Beide methoden presteerden aanzienlijk beter dan bestaande baselines (zoals Merge Similarity of Compression Rate).
Invloed van Schaalwetten (Scaling Laws):
- Er is een positieve correlatie gevonden tussen de grootte van het vocabulaire en de kwetsbaarheid voor MIAs. Grotere vocabulairen (nodig voor betere compressie en prestaties van LLMs) maken de tokenizer kwetsbaarder voor deze aanvallen, omdat er meer kans is dat distinctieve tokens worden opgenomen.
Invloed van Datasetgrootte:
- De aanvallen zijn accurater voor grotere datasets. Voor datasets met 800-1200 samples steeg de AUC van Vocabulary Overlap naar 0,882.
Real-world Validatie:
- De auteurs toonden aan dat echte, commercieel beschikbare tokenizers (zoals die van OpenAI, DeepSeek, Llama) ook distinctieve tokens bevatten die wijzen op hun trainingsdata, wat bevestigt dat de aanval in de praktijk werkt.

Defensie en Mitigatie

De auteurs onderzoeken twee verdedigingsmechanismen:

Min Count Mechanism: Het verwijderen van tokens die minder dan een bepaalde drempel ( $n_{min}$ $n_{min}$ ) voorkomen in de trainingsdata.
- Resultaat: Vermindert de effectiviteit van de aanval, maar verlaagt ook de compressie-efficiëntie (meer bytes per token), wat de prestaties van de LLM negatief beïnvloedt.
Differential Privacy (DP): Het toepassen van het exponentiële mechanisme tijdens het trainen van de tokenizer.
- Resultaat: Biedt theoretische privacybescherming, maar leidt ook tot een verlies in nuttigheid (utility) van de tokenizer.

Bijdrage en Significantie

Eerste Studie: Dit is het eerste onderzoek dat MIAs specifiek richt op tokenizers van LLMs, een tot nu toe genegeerd aanvalspunt.
Nieuwe Vector: Het toont aan dat de open-source publicatie van tokenizers (voor facturatie) een onbedoeld privacylek creëert.
Schaalbaarheidsparadox: Het paper onthult een belangrijk inzicht: de schaalwetten die LLMs beter maken (grotere vocabulairen), vergroten ook hun privacyrisico's.
Praktische Impact: De bevindingen onderstrepen de noodzaak van privacy-bewuste ontwerpen voor tokenizers. Hoewel defensie mogelijk is, gaat dit ten koste van de efficiëntie, wat een fundamentele afweging (trade-off) voor ontwikkelaars is.

Conclusie:
Tokenizers vormen een kritiek maar vaak over het hoofd gezien privacyrisico voor Large Language Models. De voorgestelde aanvallen zijn effectief, schaalbaar en werken zelfs op de grootste, modernste modellen. Dit vereist een heroverweging van hoe tokenizers worden getraind en beschermd, zonder hun nut voor de taalmodellen te ondermijnen.

Membership Inference Attacks on Tokenizers of Large Language Models

Wat is een Tokenizer? (De Vertaler)

Het Nieuwe Gevaar: De "Geheime Lijst"

Hoe werkt de aanval? (De Drie Spionnen)

Waarom is dit een probleem?

Hoe kunnen we ons verdedigen? (De Schildwacht)

Conclusie in één zin

Probleemstelling

Methodologie

Experimentele Opzet

Belangrijkste Resultaten

Defensie en Mitigatie

Bijdrage en Significantie

Meer zoals dit

A convergence theory for differentiable non-monotone schemes for fully nonlinear parabolic equations

Forest structure in epigenetic landscapes

Walking through Doors is Hard, even without Staircases: Universality and PSPACE-hardness of Planar Door Gadgets

A Linear-Time Algorithm for Steady-State Analysis of Electromigration in General Interconnects

Normalization for multimodal type theory