Every Language Model Has a Forgery-Resistant Signature

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat elke taalmodel (zoals de slimme chatbots die we vandaag gebruiken) een unieke, onzichtbare handtekening heeft. Deze handtekening zit niet in de tekst die het schrijft, maar in de manier waarop het "denkt" voordat het een woord kiest.

Dit is wat het onderzoek van Finlayson en zijn collega's ontdekt: Elk taalmodel laat een spoor achter in de vorm van een "ellips" (een langwerpig ovaal).

Hier is de uitleg in simpele taal, met behulp van een paar creatieve vergelijkingen:

1. De Magische Ring (De Ellips)

Stel je voor dat een taalmodel een enorme, onzichtbare dunne ring (een ellips) in de lucht heeft hangen.

Wanneer het model een antwoord geeft, "springt" het antwoord altijd precies op deze ring.
Het is alsof het model een danser is die alleen mag dansen op een specifieke, onzichtbare lijn op de vloer. Als je een punt tekent waar het model een woord kiest, ligt dat punt altijd op die lijn.
Het geheim: Elke model heeft zijn eigen unieke ring. De ring van Model A is anders dan die van Model B. Ze zijn zo specifiek dat twee verschillende modellen bijna nooit op dezelfde lijn dansen.

2. Waarom is dit een "Handtekening"?

In het verleden probeerden mensen modellen te herkennen door te kijken naar de tekst zelf (zoals een schrijver die een bepaald woord vaak gebruikt). Maar dit is makkelijk te vervalsen.

Deze nieuwe methode is anders:

Natuurlijk: Het is geen trucje dat de maker heeft toegevoegd. Het is een fysiek gevolg van hoe de computerrekenmachine is gebouwd (net zoals een bal die je op een helling rolt altijd een bepaalde bocht maakt).
Zelfstandig: Je hoeft de geheime code van het model niet te hebben om te zien of een antwoord op de ring ligt. Je kunt het gewoon controleren door naar het antwoord te kijken.
Compact: Je hoeft niet heel veel tekst te lezen. Zelfs één enkele zin (of zelfs één woordkeuze) is genoeg om te zien of het op de juiste ring ligt.

3. Waarom is het bijna onmogelijk om dit te vervalsen? (De "Vervalsings-Resistentie")

Dit is het coolste deel. Stel je voor dat een hacker probeert een nep-antwoord te maken dat eruitziet alsof het van een bekend model komt.

Vroeger (Lineaire vingerafdrukken): Het was als proberen een handtekening na te tekenen. Als je genoeg voorbeelden zag, kon je de lijn van de handtekening afleiden en een nep-tekening maken.
Nu (De Ellips): Om een nep-antwoord te maken dat op de ring ligt, moet de hacker eerst de exacte vorm, grootte en positie van die onzichtbare ring berekenen.
- De ring is zo complex (in een ruimte met duizenden dimensies) dat het berekenen ervan duizenden jaren computerkracht kost.
- Het is alsof je probeert de exacte vorm van een onzichtbare, driedimensionale ballon te raden door alleen naar een paar druppels water te kijken die erop hebben gedanst. Zonder de geheime blauwdruk van de maker is het praktisch onmogelijk om een nep-antwoord te maken dat perfect op de ring past.

4. De "Slot en Sleutel" Vergelijking

De auteurs vergelijken dit met een veiligheidsstelsel (zoals een bankpas):

De Sleutel: De geheime vorm van de ring (de ellips) is de sleutel. Alleen de maker van het model (of iemand die de geheime code heeft) weet precies hoe de ring eruitziet.
De Boodschap: Het antwoord dat het model geeft.
De Controle: Als je twijfelt of een antwoord echt van dat model komt, kun je het "op de ring" leggen.
- Ligt het er perfect op? Dan is het echt.
- Ligt het er net naast? Dan is het nep of van een ander model.

Waarom is dit belangrijk?

Vandaag de dag zijn er veel "gesloten" modellen (waar we de code niet mogen zien). Dit maakt het moeilijk om te weten wie een tekst heeft geschreven of of een tekst echt door een AI is gemaakt.

Met deze methode kunnen we:

Bewijzen wie iets heeft geschreven: Als een bedrijf ontkent dat hun AI een schadelijk bericht heeft verstuurd, kunnen we controleren of dat bericht op hun unieke "ring" ligt.
Veiligheid: Het maakt het heel moeilijk voor hackers om te doen alsof ze een bekend model zijn.
Verantwoordelijkheid: Het zorgt ervoor dat AI-bedrijven verantwoordelijk kunnen worden gehouden voor wat hun modellen doen, zelfs als ze proberen het te ontkennen.

Kortom: Elk taalmodel heeft een onzichtbare, onnavolgbare dansvloer. Als je antwoord niet op die vloer past, is het niet van dat model. En zonder de blauwdruk van de dansvloer is het onmogelijk om een nep-dansvloer te bouwen die er precies zo uitziet.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

De snelle opkomst van gesloten gewichts-talenmodellen (LLMs) met publieke API's heeft de behoefte aan forensische methoden vergroot. Het doel is tweeledig: het extraheren van verborgen modeldetails (zoals parameters) en het identificeren van de bron van een gegenereerde tekst. Bestaande methoden, zoals "watermarks" of "fingerprints", hebben vaak beperkingen:

Ze vereisen vaak actieve implementatie door de provider (niet natuurlijk voorkomend).
Ze zijn soms makkelijk te vervalsen (forgery) als de constraints bekend zijn.
Ze vereisen vaak lange teksten of meerdere generatiestappen om betrouwbaar te zijn.
Ze vereisen soms toegang tot de input of het volledige model om te verifiëren.

Het paper introduceert een nieuw concept: het gebruik van de geometrische constraints van het model als een niet-vervalsbaar handtekening (signature) die inherent aanwezig is in de output van bijna elk modern taalmodel.

Methodologie: Taalmodel-ellipsen

De kern van de methode berust op de architectuur van moderne taalmodellen (zoals Transformers). De auteurs tonen wiskundig aan dat de output-logits van een model liggen op het oppervlak van een hoog-dimensionale ellips (hyperellipsoïde).

Geometrische Afleiding:
- De penultimale laag van een model normaliseert de activaties (vaak via RMS-norm of Layer Norm). Normalisatie projecteert de vectoren op het oppervlak van een $d$ -dimensionale sfeer (waarbij $d$ de hidden size is).
- Vervolgens wordt een lineaire transformatie (de unembedding matrix $W$ ) en een affiene transformatie (gewicht $\gamma$ en bias $\beta$ ) toegepast om de logits in de vocabulaire-ruimte ( $v$ dimensies) te projecteren.
- Omdat een lineaire transformatie een sfeer vervormt tot een ellips, liggen alle mogelijke logit-vectoren van een specifiek model op het oppervlak van een unieke $d$ -dimensionale ellips binnen de $v$ -dimensionale ruimte.
- Omdat API's meestal log-probabilities (logprobs) teruggeven in plaats van logits, en de softmax-functie invariant is voor scalair optellen, blijven ook de logprobs op deze ellips liggen (mits gecentreerd).
Verificatie:
- Om te verifiëren of een output van een specifiek model komt, hoeft men alleen te controleren of de logprob-vector op de bijbehorende ellips ligt.
- De afstand tot de ellips wordt gemeten door de inverse affiene transformatie toe te passen en te kijken of het resultaat een eenheidsvector is (norm 1).
Vervalsing (Forgery) en Extractie:
- Om een output te vervalsen (d.w.z. een logprob te genereren die op de ellips ligt zonder het model te hebben), moet een aanvaller eerst de parameters van de ellips (rotatie, schaling, bias) extraheren uit de API-outputs.
- Het paper analyseert de complexiteit van deze extractie:
  - Query Complexiteit: Het verzamelen van voldoende samples om de ellips te definiëren vereist $O(d^2)$ outputs. Omdat de vocabulaire groot is, moeten vaak multi-token prefixes worden gebruikt, wat de query-kosten verhoogt naar $O(d^3 \log d)$ .
  - Berekeningscomplexiteit: Het passen (fitting) van een ellips aan de data vereist algoritmen met een tijdscomplexiteit van $O(d^6)$ .
- Voor grote modellen (bijv. 70B parameters) zijn de kosten voor het extraheren van de ellips via API-query's en de daaropvolgende berekening astronomisch hoog (miljoenen dollars en duizenden jaren rekentijd), waardoor vervalsing in de praktijk onmogelijk is.

Belangrijkste Bijdragen

Het paper introduceert de "Ellipse Signature" met vier unieke eigenschappen die het onderscheiden van bestaande methoden:

Vervalsing-Resistent (Forgery-Resistant): In tegenstelling tot lineaire handtekeningen (die makkelijk te extraheren en te kopiëren zijn), is het extraheren van een ellipscomputationeel onhaalbaar voor grote modellen. Het is praktisch onmogelijk om logprobs te genereren die op de ellips liggen zonder de parameters te kennen.
Natuurlijk Voorkomend (Naturally Occurring): De ellips is een inherent gevolg van de normalisatielaag in bijna alle moderne LLM's. Geen enkele actieve implementatie door de provider is nodig.
Zelfbevattend (Self-Contained): Verificatie vereist geen toegang tot de model-inputs, de volledige modelgewichten, of de prompt. Alleen de output (logprobs) en de publieke ellipsparameters (die als "geheime sleutel" fungeren) zijn nodig.
Compact en Redundant: De handtekening is aanwezig in elke enkele generatiestap. Er is geen lange tekstreeks nodig om de identiteit te bevestigen; één token is voldoende.

Resultaten

De auteurs evalueren hun methode op diverse open-weight modellen (Olmo 2, Llama 3.1, Qwen 3, GPT OSS):

Identificatie: Experimenten tonen aan dat logprobs die gegenereerd zijn door een specifiek model, een extreem kleine afstand hebben tot de ellips van dat model, maar een grote afstand tot de ellips van andere modellen (verschil van meerdere ordes van grootte).
Extractie op kleine modellen: Op een klein model (1M parameters) slaagden ze erin om de ellipsparameters nauwkeurig te extraheren en te vergelijken met de ground truth, wat de theorie bevestigt.
Kostenanalyse: Tabel 1 in het paper illustreert de onhaalbaarheid van vervalsing voor grote modellen. Het extraheren van de ellips voor een model zoals gpt-3.5-turbo zou naar schatting meer dan $150.000 kosten, en voor een 70B model meer dan $16 miljoen. De rekentijd voor het passen van de ellips zou duizenden jaren bedragen.

Betekenis en Toepassing

De paper stelt een protocol voor voor output-verificatie dat analoog is aan cryptografische message authentication codes (MACs):

De ellipsparameters fungeren als de geheime sleutel.
De logprobs zijn het bericht met de handtekening.
Alleen partijen met toegang tot de geheime parameters (de provider of een vertrouwde derde) kunnen de authenticiteit van de output verifiëren.

Implicaties:

Forensiek en Accountability: Dit biedt een krachtig instrument om te bewijzen dat een specifieke output afkomstig is van een bepaald model, zelfs als de provider dit ontkent. Dit is cruciaal voor juridische zaken en regulering van AI.
Beveiliging: Het creëert een barrière tegen het nabootsen van modelgedrag door concurrenten of kwaadwillenden.
Beperkingen: De methode vereist dat de API toegang geeft tot logprobs (wat momenteel beperkt is, bijv. bij OpenAI). Ook is de beveiliging gebaseerd op computationele moeilijkheid (polynomiaal) en niet op strikte cryptografische onbreekbaarheid.

Concluderend biedt dit werk een nieuw paradigma voor model-forensiek: het gebruik van de inherente geometrie van neurale netwerken als een onvervalsbaar, natuurlijk en zelfbevattend identificatiesysteem.

Every Language Model Has a Forgery-Resistant Signature

1. De Magische Ring (De Ellips)

2. Waarom is dit een "Handtekening"?

3. Waarom is het bijna onmogelijk om dit te vervalsen? (De "Vervalsings-Resistentie")

4. De "Slot en Sleutel" Vergelijking

Waarom is dit belangrijk?

Probleemstelling

Methodologie: Taalmodel-ellipsen

Belangrijkste Bijdragen

Resultaten

Betekenis en Toepassing

Meer zoals dit

OpenKedge: Governing Agentic Mutation with Execution-Bound Safety and Evidence Chains

From Business Events to Auditable Decisions: Ontology-Governed Graph Simulation for Enterprise AI

Sustained Impact of Agentic Personalisation in Marketing: A Longitudinal Case Study

RAMP: Hybrid DRL for Online Learning of Numeric Action Models

Parameterized Complexity Of Representing Models Of MSO Formulas