Each language version is independently generated for its own context, not a direct translation.
Stel je voor dat een Grote Taalmodel (LLM) zoals ChatGPT of DeepSeek een enorm, slim brein is. Maar voordat dit brein kan denken, moet het eerst leren lezen. En om te leren lezen, moet het eerst leren "tellen" in woorden.
Hier komt de Tokenizer (de tokenisator) om de hoek kijken.
Wat is een Tokenizer? (De Vertaler)
Een tokenizer is als een super-snel vertaalboekje of een puzzelmeester.
- Als je de zin "Ik hou van AI" typt, ziet de computer niet als één zin.
- De tokenizer breekt dit af in stukjes (tokens):
["Ik", " hou", " van", " AI"]. - Zonder dit boekje zou het brein van de AI niet weten wat het moet doen.
In de echte wereld maken bedrijven zoals OpenAI en Google deze boekjes openbaar. Waarom? Om eerlijk te zijn: als je een bericht stuurt, betaal je per "stukje" (token). Ze moeten laten zien hoe ze dat berekenen.
Het Nieuwe Gevaar: De "Geheime Lijst"
De onderzoekers van dit paper ontdekken iets verrassends en engs: Dit openbare boekje kan verraden welke geheime boeken de AI heeft gelezen.
Stel je voor dat een dief een lijst van woorden in een bibliotheek vindt. Hij ziet dat er een heel zeldzaam woord in staat, bijvoorbeeld "Dumal" (een naam van een persoon).
- Als dit woord in het boekje staat, betekent dat waarschijnlijk dat de AI dit woord ergens in zijn training heeft gezien.
- Als de AI dit woord niet had gezien, zou het waarschijnlijk niet in het boekje staan, omdat het te zeldzaam was.
De onderzoekers zeggen: "We hoeven niet het hele brein van de AI te hacken. We hoeven alleen maar naar dit boekje te kijken om te weten of een bepaald document (bijvoorbeeld een Reddit-bericht van jou) in de training zat."
Hoe werkt de aanval? (De Drie Spionnen)
De onderzoekers hebben vijf manieren bedacht om dit te doen. Laten we de drie belangrijkste vergelijken met speurwerk:
De "Vergelijkende Speler" (MIA via Vocabulary Overlap):
- De analogie: Stel je voor dat je twintig koks hebt die allemaal een eigen receptenboek maken. Je vraagt ze allemaal om een boek te maken zonder jouw geheim recept. Dan maak je één boek met jouw recept.
- De truc: Als je jouw geheim recept in het echte boekje van de AI ziet staan, en dat woord komt overeen met de woorden in jouw "met-recept"-boekje, dan weet je: "Aha! Dit woord kwam uit mijn recept!"
- Resultaat: Dit werkt heel goed. Ze kunnen met 77% zekerheid zeggen of een dataset (een verzameling teksten) wel of niet gebruikt is.
De "Statistiek-Deurwaarder" (MIA via Frequency Estimation):
- De analogie: Deze methode is slimmer en sneller. In plaats van twintig koks te hebben, kijkt de spion alleen naar hoe vaak woorden voorkomen.
- De truc: Als een woord heel zeldzaam is, maar toch in het boekje van de AI staat, betekent dat bijna zeker dat het uit een specifieke bron komt. Het is alsof je een zeldzame bloem in een tuin ziet staan en weet: "Die kan alleen maar van die ene specifieke tuinier komen."
- Resultaat: Dit werkt bijna net zo goed als de eerste methode, maar is veel sneller en goedkoper.
De "Snelheidstest" (MIA via Merge Similarity):
- Dit is de eerste methode die ze probeerden. Ze keken naar de volgorde waarin woorden werden samengevoegd.
- Resultaat: Dit werkte niet zo goed. Het was te rommelig, alsof je probeert een verhaal te raden door alleen naar de lettergrepen te kijken.
Waarom is dit een probleem?
- Schalen maakt het erger: Hoe slimmer de AI wordt, hoe groter het woordenboekje (tokenizer) wordt. De onderzoekers ontdekten dat grotere woordenboeken kwetsbaarder zijn. Het is alsof je een groter raam hebt: hoe groter het raam, hoe makkelijker het is om naar binnen te kijken.
- Grote datasets zijn makkelijker te spotten: Als een bedrijf een heel groot bestand (bijvoorbeeld 1000 Reddit-berichten) heeft gebruikt, is het voor de spion makkelijker om dat te ontdekken dan als ze maar één klein berichtje hebben gebruikt.
Hoe kunnen we ons verdedigen? (De Schildwacht)
De onderzoekers bieden ook een oplossing, maar er is een prijs voor:
- De "Min-Count" Muur: Je kunt woorden uit het boekje verwijderen die te zeldzaam zijn.
- Het nadeel: Als je te veel rare woorden verwijdert, wordt het boekje minder handig. De AI moet dan meer stukjes gebruiken om dezelfde zin te zeggen. Dat kost meer geld (meer tokens) en vertraagt de AI.
- Differentiële Privacy (DP): Dit is als ruis toevoegen aan het boekje. Het maakt het onmogelijk om te weten of een specifiek woord erin staat of niet.
- Het nadeel: Ook hier wordt de kwaliteit van het boekje iets minder.
Conclusie in één zin
Dit paper waarschuwt dat we te veel vertrouwen hebben in de openbaarheid van de "woordenboeken" van AI. Door simpelweg naar deze lijsten te kijken, kunnen hackers achterhalen welke geheime of gevoelige gegevens een AI heeft geleerd, en hoe groter de AI wordt, hoe makkelijker dit wordt.
De les: Als je een AI bouwt, moet je niet alleen het brein beschermen, maar ook het woordenboekje dat het gebruikt.