Good-Enough LLM Obfuscation (GELO)

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Het Probleem: De Glazen Wand in de Cloud

Stel je voor dat je een heel geheimzinnig gesprek voert met een slimme AI (zoals een chatbot). Je wilt dat deze AI je antwoordt, maar je wilt niet dat de eigenaar van de computer (de "cloud") kan meekijken in je gesprek.

In de wereld van AI draaien deze modellen vaak op gedeelde supercomputers. Het probleem is dat een slimme hacker (of een nieuwsgierige cloud-eigenaar) soms kan "kijken" in het geheugen van deze computer. Ze kunnen zien wat er gebeurt terwijl de AI denkt. Dit is alsof je door een glazen wand kijkt naar je eigen gesprek. Ze kunnen zien welke woorden je gebruikt (je "prompt") en zelfs de gedachten van de AI reconstructeren.

Er zijn twee bestaande oplossingen, maar beide hebben grote nadelen:

De "Onbreekbare Kluis" (Cryptografie): Dit is als het versturen van je brief in een onbreekbare, zinken kist. Niemand kan erin kijken. Maar het kost zo veel tijd om de kist te openen en te sluiten dat je gesprek 100 keer langer duurt. Niemand wil dat voor een snelle chat.
De "Verwarrende Masker" (Statische Obfuscatie): Dit is alsof je je woorden verandert in een code die alleen jij kent. Maar als de hacker weet hoe de code werkt (bijvoorbeeld omdat het een open-source AI is), kan hij de code binnen enkele minuten kraken door veelvuldig te kijken.

💡 De Oplossing: GELO (De "Goed Genoeg" Vermomming)

De auteurs van dit paper, Anatoly Belikov en Ilya Fedotov, hebben een nieuwe manier bedacht genaamd GELO. Het idee is simpel: we gebruiken een "goede genoeg" vermomming die snel is, maar toch veilig genoeg om je privacy te beschermen.

Hoe werkt het? De Analogie van de Verwarde Zending

Stel je voor dat je een pakketje (je geheime gesprek) naar een vrachtwagenchauffeur (de onbetrouwbare computer) stuurt om het te verpakken.

De TEE (Het Veilige Huis): Je hebt een veilig huis (een Trusted Execution Environment of TEE) waar je de waarheid bewaart.
De Verwarde Zending (Mixing): Voordat je het pakketje naar de vrachtwagen stuurt, gooi je het door een wasmachine met een willekeurige draai. Je roert je geheime woorden (de "hidden states") door een willekeurige, onbekende vloeistof.
- De vrachtwagenchauffeur ziet nu alleen een wazige, onherkenbare soep. Hij kan de computerrekenwerk (de zware taken) doen, maar hij ziet niet wat erin zit.
De Terugkeer (Unmixing): De vrachtwagen stuurt het resultaat terug naar je veilig huis.
Het Recept (De Sleutel): In je veilig huis heb je de exacte sleutel (een wiskundige formule) om de soep weer te scheiden in de oorspronkelijke woorden. Omdat jij de sleutel hebt, krijg je het perfecte antwoord terug.

Het Geniale Trucje: De "Wasmachine" Verandert Altijd

Het geheim van GELO is dat je elke keer een nieuwe, unieke wasmachine-instelling gebruikt.

Bij oude methoden gebruikten ze altijd dezelfde code. Als de hacker die eenmaal kraakte, was het gedaan.
Bij GELO verandert de "mixing" bij elke nieuwe batch (elke groep vragen) opnieuw.

Dit betekent dat de hacker zich moet bezighouden met een eenmalig raadsel. Hij ziet de soep, maar omdat de draaiing elke keer anders is, kan hij niet de patronen van gisteren gebruiken om vandaag te kraken. Het is alsof hij elke keer een nieuw, compleet ander puzzelstuk moet oplossen zonder de randjes te kennen.

🛡️ Twee Verdedigingen tegen Slimme Hackers

De auteurs beseften dat slimme hackers misschien toch patronen kunnen vinden in de "soep". Daarom hebben ze twee extra verdedigingen bedacht:

De "Niet-Rechte" Draai: Soms draait de wasmachine de soep op een manier die de verhoudingen tussen de woorden verandert. Dit maakt het voor de hacker onmogelijk om de oorspronkelijke verhoudingen (de "Gram-matrix") te zien.
De "Ruisende Schuimkop" (Shield Vectors): Dit is mijn favoriete analogie. Stel je voor dat je in een stil gesprek zit, maar er is iemand die constant schreeuwt of ruis maakt.
- GELO voegt een paar "schermvectors" toe: willekeurige, harde ruis die door de AI wordt verwerkt.
- De hacker ziet nu je gesprek, maar het is verpest door deze harde ruis. Hij kan je woorden niet meer duidelijk horen.
- Voor de AI zelf is dit geen probleem (het lost de ruis op), maar voor de hacker is het een ondoordringbare muur van ruis.

🚀 Is het snel genoeg?

Ja! De tests tonen aan dat:

Snelheid: Het kost slechts ongeveer 20% tot 30% extra tijd. Dat is alsof je een auto een beetje zwaarder maakt; hij rijdt nog steeds snel, maar is iets minder wendbaar. Dit is veel beter dan de 100x vertraging van de "onbreekbare kluis".
Nauwkeurigheid: De antwoorden van de AI zijn exact hetzelfde als zonder vermomming. Je merkt niets van het verschil.

🎯 Conclusie

GELO is een slimme, praktische oplossing. Het erkent dat we niet altijd de "perfecte" cryptografie kunnen gebruiken omdat het te traag is. In plaats daarvan kiezen ze voor een "Goed Genoeg" strategie:

Ze verbergen de geheime data met een willekeurige, elke keer veranderende code.
Ze voegen ruis toe om slimme hackers te verwarren.
Ze laten de zware rekenwerk over aan snelle, onbetrouwbare computers, terwijl de geheimen veilig blijven in een klein, beveiligd huisje.

Het is als het versturen van een geheim bericht in een busje dat elke seconde van kleur verandert. De hacker kan wel kijken, maar kan nooit weten wat er echt in zit voordat het te laat is.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Good-Enough LLM Obfuscation (GELO)" in het Nederlands.

Titel: Good-Enough LLM Obfuscation (GELO)

Auteurs: Anatoly Belikov en Ilya Fedotov (SingularityNET Foundation / Singularity Compute)

1. Het Probleem

Grote Taalmodellen (LLMs) worden steeds vaker gehost op gedeelde cloud-accelerators (zoals GPU's). In deze omgeving vormt een adversary met leesrechten op het apparaatgeheugen (VRAM) een ernstig risico. Specifiek kunnen zij de KV-caches (Key-Value caches) en verborgen staten (hidden states) observeren, wat leidt tot lekken van prompt-privacy en het mogelijk maken om gevoelige gebruikersinvoer te reconstrueren.

Bestaande oplossingen vallen uiteen in twee uitersten met grote nadelen:

Cryptografische methoden (MPC, FHE): Bieden sterke beveiliging, maar zijn 100x tot 1000x te traag voor interactieve inferentie.
Statische obfuscatie: Snelle methoden (zoals statische permutaties van gewichten) die echter kwetsbaar zijn voor statistische aanvallen zodra het model bekend is (bijv. bij open-source modellen).

Er is behoefte aan een protocol dat privacy garandeert op onbetrouwbare hardware, maar wel voldoende performant is voor productiegebruik.

2. Methodologie: Het GELO-protocol

GELO (Good-Enough LLM Obfuscation) is een lichtgewicht protocol dat gebruikmaakt van een hybride architectuur met een Trusted Execution Environment (TEE) en een onbetrouwbare accelerator.

Kernprincipes:

Architectuur: De TEE (bijv. een H200 met TEE-ondersteuning) beheert de gevoelige data en cryptografische sleutels. De onbetrouwbare GPU (bijv. L40S) voert alleen de zwaarste lineaire algebra-berekeningen uit.
Dynamische Menging (Mixing): Voor elke batch van tokens genereert de TEE een frisse, willekeurige, inverteerbare matrix $A$ (grootte $n \times n$ , waarbij $n$ het aantal tokens in de batch is).
Het Protocol:
1. De TEE neemt de verborgen staten $H$ en berekent $U = AH$ (menging).
2. $U$ en de modelgewichten $W$ worden naar de onbetrouwbare accelerator gestuurd.
3. De accelerator berekent de projectie $Y = UW$ (bijv. voor Query, Key, Value in attention).
4. $Y$ wordt teruggestuurd naar de TEE.
5. De TEE berekent $Q = A^{-1}Y$ om de exacte originele resultaten te herstellen.
- Wiskundig: $A^{-1}((AH)W) = HW$ . De uitkomst is identiek aan niet-geobfuscateerde inferentie.

Beveiligingsmechanismen:

Single-Batch BSS: Omdat $A$ nooit wordt hergebruikt tussen batches, staat de aanvaller voor een Blind Source Separation (BSS) probleem met slechts één observatie. Dit maakt het onmogelijk om statistische patronen over meerdere runs te accumuleren.
Defensies tegen lekken:
- Niet-orthogonale menging: Gebruik van een algemene inverteerbare matrix (in plaats van orthogonaal) om covariantiematrices (Gram-matrices) te maskeren.
- Schild-vectoren (Shielding): Toevoegen van een klein aantal willekeurige, hoog-energetische "shield"-vectoren aan de batch. Dit vervuilt de hogere-orde statistieken en maakt het moeilijk voor ICA-algoritmen om de echte data te scheiden.

3. Belangrijkste Bijdragen

Het GELO-protocol: Een formeel gedefinieerd algoritme dat LLM-projecties veilig kan offloaden naar onbetrouwbare hardware zonder de onderliggende hidden states te onthullen.
Analyse van lekkanalen en identificeerbaarheid: Het paper identificeert dat orthogonale menging nog steeds covariantie-informatie lekt, en biedt oplossingen hiervoor. Het formuleert een veiligheidsargument gebaseerd op het feit dat $H$ niet identificeerbaar is zonder extra informatie, zolang $A$ per batch verandert.
Empirische validatie: Uitgebreide evaluatie van aanvallen (Anchor-based, ICA, BSS) en prestaties, die aantonen dat GELO effectief is tegen een breed scala aan deobfuscatie-aanvallen.

4. Resultaten

De auteurs hebben GELO getest op een Llama-2 7B model:

Functionaliteit:
- In float32 precisie is de output exact gelijk aan de baseline (100% top-1 token overeenkomst).
- In bfloat16/float16 (praktische inferentie) blijft de kwaliteit zeer hoog (>98,8% top-1 overeenkomst), wat aantoont dat de numerieke fouten door de menging verwaarloosbaar zijn.
Prestaties (Latentie):
- GELO voegt ongeveer 20–30% overhead toe aan de totale latentie bij typische batchgroottes.
- De meeste overhead komt door communicatie (IPC/socket) en niet door de berekeningen zelf. De berekening van de matrix $A$ en de menging is relatief goedkoop.
- Het protocol offloadt ongeveer 76% van de lineaire algebra-kosten (de zware GEMM-berekeningen) naar de onbetrouwbare GPU.
Beveiliging tegen aanvallen:
- Anchor-aanvallen: Zelfs als een aanvaller enkele bekende tokens ("anchors") in een batch kent, lukt het hen niet om de resterende tokens te reconstrueren, vooral niet met de "shield"-vectors.
- BSS/ICA-aanvallen: Zonder padding (shielding) zijn aanvallen gedeeltelijk succesvol. Met hoog-energetische shield-vectoren (5% van de batch, geschaald tot 10x de gemiddelde norm) daalt de herstelkwaliteit drastisch (cosine similarity < 0,28), wat de aanvallen effectief onbruikbaar maakt.
- Cross-batch accumulatie: Omdat $A$ per batch verandert, biedt het verzamelen van data over meerdere batches geen extra informatie voor de aanvaller.

5. Betekenis en Conclusie

GELO biedt een praktische, "goed genoeg" oplossing voor privacy-bewuste LLM-inferentie in de cloud. Het lost het fundamentele dilemma op tussen de hoge kosten van cryptografie en de kwetsbaarheid van statische obfuscatie.

Praktische toepasbaarheid: Het maakt het mogelijk om dure, onbetrouwbare GPU-pools te gebruiken voor de zware berekeningen, terwijl de privacy van de input en output gewaarborgd blijft binnen de TEE.
Veiligheidsmodel: In plaats van wiskundige onbreekbaarheid (zoals bij encryptie), vertrouwt GELO op de rekenkundige onmogelijkheid om Blind Source Separation op te lossen met slechts één observatie en zonder statische patronen.
Toekomst: Het paper schetst de weg voor integratie met inferentie-engines (zoals vLLM), uitbreiding naar andere model-lagen en optimalisatie van de communicatie-overhead.

Kortom, GELO demonstreert dat het mogelijk is om privacy en performantie te balanceren door slimme, dynamische lineaire transformaties toe te passen in een hybride TEE-GPU omgeving.