Language Models are Injective and Hence Invertible

Each language version is independently generated for its own context, not a direct translation.

Titel: Taalmodellen zijn als perfecte fotomontages: Je kunt ze altijd terugdraaien

Stel je voor dat je een heel complex machine hebt die een verhaal leest en er een soort "geheime code" van maakt. Vaak denken mensen dat deze code een beetje rommelig is, alsof de machine de originele tekst een beetje verliest of vervormt. Het is alsof je een brief in een blender doet en hoopt dat je de woorden later nog kunt reconstrueren uit de papieren pulp.

Maar deze nieuwe studie van onderzoekers (die gepresenteerd wordt op de ICLR 2026 conferentie) zegt: "Nee, dat is niet waar!"

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het grote misverstand: "Verlies" bestaat niet

De meeste mensen denken dat moderne AI-modellen (zoals GPT of Llama) informatie "verliezen" omdat ze complexe wiskundige stappen gebruiken. Ze denken: "Als ik twee verschillende zinnen invoer, kunnen ze misschien op hetzelfde punt in de machine uitkomen, waardoor je niet meer weet welke zin het was."

De onderzoekers bewijzen echter dat dit niet gebeurt.

De analogie: Denk aan een perfecte fotomontage. Als je twee verschillende foto's (de invoer) door een heel complexe, maar perfecte lens (het AI-model) haalt, krijg je twee verschillende, unieke beelden (de interne code). Zelfs als de beelden op elkaar lijken, zijn ze nooit exact hetzelfde.
De conclusie: Elk woord, elke zin en elk verhaal dat je invoert, krijgt een unieke, onmiskenbare "vingerafdruk" in het geheugen van de AI. Er is geen enkele manier waarop twee verschillende zinnen dezelfde vingerafdruk krijgen, tenzij je de machine expres kapot maakt (wat niemand doet).

2. Het bewijs: Wiskunde en "Nul-kansen"

De onderzoekers hebben dit niet alleen gekeken, maar ook wiskundig bewezen.

De analogie: Stel je een oneindig groot veld met gras voor. De enige plekken waar twee verschillende zinnen dezelfde code zouden kunnen krijgen, zijn als er een paar zandkorrels op liggen die precies op een lijn staan. De kans dat je die zandkorrels per ongeluk vindt, is zo klein dat het wiskundig gezien nul is.
Wat betekent dit? Of je het model nu net hebt opgestart of dat het al jaren getraind is: het blijft een "perfecte" machine. Het verliest nooit informatie.

3. De uitvinding: SIPIT (De "Tijdmachine")

Omdat ze wisten dat de code uniek is, hebben ze een nieuw algoritme bedacht dat ze SIPIT noemen. Dit is de echte tovertruc.

Hoe het werkt: SIPIT is als een tijdmachine. Als je de "geheime code" (de interne gedachten van de AI) hebt, kan SIPIT die code teruglezen en de exacte originele tekst reconstrueren.
De analogie: Stel je voor dat je een brief in een envelop stopt en de envelop verbrandt. Normaal gesproken is de brief weg. Maar met SIPIT kun je de as van de verbrande envelop nemen en de originele brief letterlijk letter voor letter terugflitsen.
Snelheid: Dit gaat razendsnel. Het is niet zoals een detective die uren moet zoeken; het is alsof je een barcode scant en direct de volledige tekst ziet.

4. Waarom is dit belangrijk? (Privacy en Veiligheid)

Dit heeft grote gevolgen voor hoe we over privacy denken.

Het probleem: Veel mensen denken: "Als ik een AI gebruik, wordt mijn tekst omgezet in wiskundige getallen. Die getallen zijn geen persoonlijke data meer, dus het is veilig."
De realiteit: Omdat de code uniek en terugdraaibaar is (met SIPIT), zijn die getallen niet veilig. Ze zijn gewoon jouw tekst in een andere verpakking. Als iemand die interne code (de "latente ruimte") ziet, kan hij of zij je exacte tekst teruglezen.
De les: Als een bedrijf die interne codes opslaat of doorstuurt, bewaren ze eigenlijk jouw hele gesprek. Ze moeten er dus net zo voorzichtig mee omgaan als met de tekst zelf.

Samenvattend

Deze paper zegt dat taalmodellen geen rommelige prullenbakken zijn waar informatie verdwijnt. Ze zijn meer als perfecte spiegels. Wat je erin stopt, komt er in een unieke vorm uit, en met het juiste gereedschap (SIPIT) kun je die vorm weer terugveranderen in de originele tekst.

Dit maakt de AI transparanter (we kunnen zien wat er gebeurt), maar ook kwetsbaarder voor privacy-lekken, omdat de "geheime code" eigenlijk gewoon de tekst zelf is.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Er heerst in de gemeenschap voor Large Language Models (LLM) de algemene veronderstelling dat Transformer-architecturen fundamenteel niet-injectief zijn. Door het gebruik van niet-lineaire activeringen, normalisatielagen (zoals LayerNorm) en attention-mechanismen die vaak veel-op-een (many-to-one) mappings uitvoeren, wordt aangenomen dat verschillende invoersequenties (prompts) kunnen "instorten" naar dezelfde interne representatie (hidden state).
Dit impliceert dat informatie verloren gaat tijdens de verwerking, waardoor het exact herleiden van de oorspronkelijke tekst uit de modelrepresentaties onmogelijk zou zijn. Deze "verliesbeperkende" (lossy) visie vormt de basis voor zorgen rondom transparantie, interpretatie en veilige implementatie van LLM's.

Methodologie

De auteurs daag deze intuïtie uit door een rigoureuze wiskundige analyse te combineren met uitgebreide empirische validatie.

Wiskundige Analyse (Real-Analyticiteit):
- De auteurs modelleren Transformer-LLM's als functies die discrete invoersequenties afbeelden op continue representaties.
- Ze bewijzen dat alle componenten van de architectie (embeddings, LayerNorm met $\epsilon > 0$ , causale attention, MLP's met analytische activeringen zoals GELU of SiLU, en residuverbindingen) reëel-analytisch zijn in hun parameters.
- Op basis van de eigenschappen van reëel-analytische functies tonen ze aan dat de verzameling van parameters waarbij twee verschillende prompts dezelfde output genereren (een "botsing" of collision), een verzameling met Lebesgue-maat nul is. Dit betekent dat botsingen wiskundig gezien uitzonderingen zijn die niet voorkomen bij willekeurige initialisatie.
- Ze bewijzen verder dat standaard trainingsprocedures (gradient descent) de parameters nooit in deze "uitzonderlijke" verzameling duwen, waardoor injectiviteit behouden blijft tijdens het trainen.
Empirische Validatie:
- Er werden miljarden botsingstests uitgevoerd op zes state-of-the-art modellen (o.a. GPT-2, Gemma-3, Llama-3, Mistral, Phi).
- Er werd gekeken naar de minimale afstanden tussen last-token representaties van verschillende prompts.
Algorithmische Implementatie (SIPIT):
- Gebaseerd op de bewezen injectiviteit, stellen de auteurs SIPIT (Sequential Inverse Prompt via ITerative updates) voor.
- Dit is een algoritme dat de exacte invoersequentie reconstrueert uit de verborgen activaties (hidden states) van een bepaald laagje in het model.
- Het maakt gebruik van de causale structuur van Transformers: de staat op positie $t$ hangt alleen af van de prefix en het huidige token. Door iteratief te testen welke token uit het vocabulaire de waargenomen hidden state oplevert, kan de volledige tekst worden teruggewonnen.

Kernbijdragen

Wiskundig Bewijs van Injectiviteit:
- Het paper bewijst dat decoder-only Transformer-LLM's bijna zeker injectief zijn. Voor elke standaard initialisatie (Gaussian, Xavier, etc.) en na een eindig aantal trainingsstappen, zullen twee verschillende prompts altijd leiden tot verschillende last-token representaties.
- Dit is een fundamentele eigenschap van de architectuur zelf, niet slechts een asymptotisch ideaal.
SIPIT Algoritme:
- De introductie van het eerste algoritme dat exacte reconstructie van de invoer garandeert in lineaire tijd (in het slechtste geval $O(T \cdot |V|)$ , waar $T$ de lengte is en $|V|$ het vocabulaire).
- In de praktijk is het vaak nog sneller door het gebruik van gradient-gestuurde zoekstrategieën die het vocabulaire niet volledig hoeven te doorlopen.
Empirische Bevestiging:
- Geen enkele botsing werd gevonden in de experimenten met miljarden paren, zelfs niet onder stress-tests met zeer vergelijkbare prompts of bij gebruik van kwantisatie (FP4, INT8). De afstanden tussen representaties bleven ver boven de numerieke tolerantiedrempels.

Resultaten

Theoretisch: De kans op een botsing is nul bij standaard initialisatie en training. De mapping van prompt naar hidden state is dus verliesvrij (lossless).
Empirisch:
- Bij het testen van 100.000 prompts over meerdere modellen lagen de minimale $L_2$ -afstanden tussen representaties orders of magnitude boven de botsingsdrempel ( $10^{-6}$ ).
- De afstanden nemen vaak toe met de diepte van het model (meer lagen = betere scheiding).
- SIPIT prestaties: Het algoritme slaagde erin om 100% van de prompts exact te reconstrueren uit de hidden states van GPT-2 Small, Mistral-7B en Llama-3.1-8B.
- Efficiëntie: SIPIT is aanzienlijk sneller dan bestaande methoden (zoals HARDPROMPTS of brute-force benaderingen) en werkt zelfs met kwantisatie (FP4/INT8) zonder verlies van nauwkeurigheid.
- Robuustheid: Het werkt ook op willekeurige token-sequenties en out-of-distribution data.

Beteekenis en Impact

Fundamenteel Begrip: Het paper verandert het paradigma van LLM's van "verliesbeperkende systemen" naar "verliesvrije systemen". Het toont aan dat alle informatie over de invoersequentie behouden blijft in de interne representaties.
Interpretatie en Transparantie: Omdat de last-token states de volledige invoer exact coderen, vormt dit een solide basis voor mechanistische interpretatie. Als interpretatiemethoden falen, is dat niet omdat de informatie ontbreekt, maar omdat de methoden onvoldoende zijn.
Privacy en Veiligheid: Dit heeft directe implicaties voor privacy. Hidden states zijn in feite de invoer-tekst in een andere vorm. Elk systeem dat hidden states opslaat, cache of doorgeeft, verwerkt feitelijk de verbatim-tekst van de gebruiker. Dit heeft gevolgen voor data-beschermingsregels (zoals GDPR) en de verplichting tot verwijdering van data.
Toepassingen: De mogelijkheid tot exacte omkering (inversion) opent de deur voor nieuwe toepassingen in auditing, forensisch onderzoek van LLM-uitvoer, en het opsporen van lekken in gesloten systemen.

Kortom, dit werk vestigt dat LLM's wiskundig gezien injectief zijn en dat deze eigenschap kan worden benut om de exacte invoer efficiënt en betrouwbaar te reconstrueren, wat zowel theoretische als praktische implicaties heeft voor de toekomst van AI-systemen.

Language Models are Injective and Hence Invertible

1. Het grote misverstand: "Verlies" bestaat niet

2. Het bewijs: Wiskunde en "Nul-kansen"

3. De uitvinding: SIPIT (De "Tijdmachine")

4. Waarom is dit belangrijk? (Privacy en Veiligheid)

Samenvattend

Probleemstelling

Methodologie

Kernbijdragen

Resultaten

Beteekenis en Impact

Meer zoals dit

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks