Trusting What You Cannot See: Auditable Fine-Tuning and Inference for Proprietary AI

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een beroemde kok (een AI-model) huurt om een gigantisch, geheim recept te perfectioneren voor je eigen restaurant. Je geeft de kok de ingrediënten (jouw data) en de instructies (hoe je het gerecht wilt), maar je mag het recept zelf niet zien. De kok werkt in een gesloten keuken (de "cloud").

Het probleem? Je hebt geen idee of de kok echt het recept volgt. Misschien gebruikt hij goedkopere ingrediënten, steelt hij je recept, of voegt hij een geheim ingrediënt toe dat de smaak verpest, terwijl hij je verzekert dat alles perfect is.

Dit is precies het probleem dat het nieuwe onderzoek AFTUNE oplost. Hier is hoe het werkt, vertaald naar alledaags taal:

1. Het Probleem: "Gooi het maar in de blender"

Vroeger kon je een AI-model zelf op je eigen computer draaien, zodat je zag wat er gebeurde. Maar nu zijn deze modellen zo groot (zoals een hele bibliotheek aan recepten), dat ze alleen in de enorme, dure keukens van grote tech-bedrijven passen.

Je vertrouwt die bedrijven blindelings. Maar wat als ze liegen? Wat als ze zeggen: "We hebben je model getraind met jouw data," terwijl ze eigenlijk een standaardmodel gebruiken dat ze ergens vandaan hebben gehaald? Of wat als ze tijdens het trainen een "backdeurtje" inbouwen?

Bestaande methoden om dit te controleren zijn ofwel te traag (alsof je elke seconde van de kooktijd moet filmen en analyseren, wat 100 keer langer duurt dan koken zelf) ofwel onmogelijk omdat de geheime recepten niet uit de keuken mogen.

2. De Oplossing: AFTUNE (De "Stempel- en Steekproef" Methode)

AFTUNE is als een slimme inspecteur die niet de hele keuken binnen hoeft te gaan, maar wel kan bewijzen dat de kok eerlijk heeft gewerkt. Het doet dit op twee slimme manieren:

A. De "Blokken" (Het Recept in Hapklare Porties)

In plaats van de hele training van begin tot eind in één keer te controleren (wat te zwaar is), breekt AFTUNE het proces op in kleine blokken.

Vergelijking: Stel je voor dat je een lange treinreis hebt. In plaats van elke seconde te controleren of de trein op het juiste spoor zit, kijkt de inspecteur alleen naar de stations waar de trein stopt.
Hoe het werkt: De AI berekent een "stempel" (een cryptografische hash) van de toestand van het model op het einde van elk blok. De kok (de provider) slaat deze stempels op. Als de kok later probeert het recept te veranderen, klopt de stempel niet meer.

B. De "Steekproef" (Het Gokspel)

Je hoeft niet elk blok te controleren. Dat zou te veel tijd kosten. In plaats daarvan kiest de klant willekeurig een paar blokken uit om te controleren.

Vergelijking: Stel je voor dat je een lading appels koopt. Je hoeft niet elke appel te proeven. Als je er 10 willekeurig uitpakt en ze zijn allemaal goed, ben je er vrij zeker van dat de hele lading goed is. Als de kok probeert om 10% van de appels rot te maken, is de kans dat jij die rotte appels net pakt enorm groot.
Het effect: De kok weet niet welke blokken jij gaat controleren. Dus moet hij eerlijk zijn bij alle blokken, want hij kan het risico niet nemen.

3. De "Veilige Kamer" (TEE)

Om te controleren of de stempels kloppen, gebruikt AFTUNE een speciale "veilige kamer" (een Trusted Execution Environment of TEE) bij de provider.

Vergelijking: Stel je voor dat de inspecteur een magische, onbreekbare glazen kooi heeft. Hij kan het recept van de kok binnen die kooi bekijken en de berekening opnieuw uitvoeren, maar de kok kan de inspecteur niet zien of manipuleren.
Het slimme trucje: De inspecteur hoeft niet het hele recept in die kooi te doen (dat is te groot). Hij doet alleen het kleine blokje dat hij wil controleren. Hij rekent het opnieuw uit in de kooi en vergelijkt het resultaat met de stempel die de kok eerder heeft opgeslagen. Als ze overeenkomen, was de kok eerlijk.

Waarom is dit belangrijk?

Voorheen was je als klant volledig afhankelijk van de eerlijkheid van de cloud-provider. Met AFTUNE heb je een onafhankelijke getuige.

Je kunt controleren of je data echt is gebruikt.
Je kunt controleren of het model niet is vervalst.
Je hoeft het geheime recept van de provider niet te zien (dat blijft veilig).
Het kost bijna geen extra tijd of geld, in tegenstelling tot de oude methoden.

Samenvatting in één zin

AFTUNE is als een slimme, onzichtbare inspecteur die willekeurig kleine stukjes van een geheim recept controleert in een onbreekbare glazen kooi, zodat je zeker weet dat de kok eerlijk heeft gekookt zonder dat je het geheime recept zelf hoeft te zien of de hele keuken te hoeven bezetten.

Het maakt de "black box" van de AI-cloud transparant, zodat je kunt vertrouwen op wat je niet kunt zien.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Trusting What You Cannot See: Auditable Fine-Tuning and Inference for Proprietary AI" (AFTUNE), geschreven in het Nederlands.

1. Het Probleem: Het Vertrouwensgat in Cloud-AI

Cloud-infrastructuur is de dominante platform geworden voor het implementeren en aanpassen van grote taalmodellen (LLMs) en andere AI-modellen. Klanten geven hun data en configuraties door aan cloudproviders voor fine-tuning (aanpassing) en inference (toepassing), maar ze hebben geen inzicht in de interne werking.

Het Kernprobleem: Klanten kunnen niet verifiëren of de provider de gemaakte afspraken nakomt. Een onbetrouwbare provider kan de dienst degraderen, vooroordelen (bias) inbrengen, backdoors toevoegen, of simpelweg een goedkopere basisversie van het model gebruiken in plaats van het aangepaste model.
Beperkingen van Bestaande Oplossingen:
- Zero-Knowledge Proofs (ZKP): Bieden wiskundige integriteit, maar zijn computatief te zwaar voor moderne LLMs (duizenden keren trager dan normale uitvoering).
- Trusted Execution Environments (TEE): Bieden hardware-isolatie, maar moderne LLMs zijn te groot om volledig in het beperkte geheugen van één TEE-instantie te passen, vooral tijdens het trainen (fine-tuning) waar extra state (zoals optimizer-momenten) nodig is.

2. Methodologie: Het AFTUNE Framework

AFTUNE is een framework dat de integriteit van cloud-based fine-tuning en inference waarborgt zonder dat de klant toegang nodig heeft tot de modelparameters (die vertrouwelijk blijven bij de provider). Het lost de TEE-beperkingen op door verificatie te ontkoppelen van de uitvoering.

A. Tweedimensionale Blokstructuur (Block Decomposition)

In plaats van het hele model of elke stap in een TEE te laden, deelt AFTUNE het trainingsproces op in een raster van blokken:

Layer-blokken: Aaneengesloten lagen van het model.
Step-blokken: Aaneengesloten trainingsstappen.
Boundary States: Alleen de randtoestanden worden geregistreerd:
- Activaties en gradiënten aan de randen van layer-blokken.
- Parameters en optimizer-state aan de randen van step-blokken.
Compositional Verification: Omdat de output van het ene blok de input is van het volgende, kunnen blokken onafhankelijk worden geverifieerd. De provider slaat deze randtoestanden op en berekent cryptografische hashes ervan.

B. Map-Reduce Hashing

Om de overhead van het hashen van enorme tensors (miljoenen elementen) te verminderen, gebruikt AFTUNE een parallelle aanpak:

Tensors worden opgedeeld in chunks.
Deze chunks worden parallel gehasht op de versneller (GPU).
De resultaten worden samengevoegd tot één enkele commitment (hash).
Dit minimaliseert de impact op de trainingsdoorvoer.

C. Selectieve Verificatie via Sampling

De klant hoeft niet elk blok te verifiëren, wat de kosten drastisch verlaagt:

Steekproeven: De klant kiest willekeurige blokken om te controleren.
Recomputatie in TEE: De provider laadt het geselecteerde blok in een TEE, voert de berekening opnieuw uit (recomputatie) en vergelijkt de resultaten met de opgeslagen hashes en waarden.
Probabilistische Garantie: Zelfs een kleine steekproef (bijv. 1% van de blokken) biedt een hoge kans op detectie van manipulatie, omdat de aanvaller niet weet welke blokken gecontroleerd zullen worden.

D. Opslagoptimalisatie (Sparse Checkpointing)

Om opslagkosten te beheersen, kunnen checkpoints van parameters en optimizer-state minder frequent worden opgeslagen (bijv. elke $N$ stappen). Ontbrekende tussenliggende staten kunnen tijdens de verificatie worden gereconstrueerd door recomputatie vanuit de dichtstbijzijnde checkpoint.

3. Belangrijkste Bijdragen

AFTUNE Framework: Een nieuw systeem dat verifieerbare integriteit biedt voor cloud-based fine-tuning en inference, zelfs voor modellen die groter zijn dan het geheugen van een TEE.
Blok-decompositie: Een innovatieve methode om het trainingsproces op te delen in onafhankelijke, verifieerbare eenheden, waardoor de noodzaak om het volledige model in een TEE te laden verdwijnt.
Efficiënte Hashing en Sampling: Een map-reduce hashing-scheme voor snelle commitment-generatie en een sampling-strategie die verificatiekosten minimaliseert terwijl de beveiliging behouden blijft.
Implementatie en Evaluatie: Een werkende implementatie geïntegreerd in CUDA-pipelines, getest op diverse open-source modellen (Llama, Qwen, DINOv2, ViT) op echte TEE-hardware (Intel SGX/TDX).

4. Resultaten en Evaluatie

De evaluatie toont aan dat AFTUNE haalbaar is voor productieomgevingen:

Performance Overhead: AFTUNE introduceert een praktische rekentijd-overhead (tussen 14% en 83% afhankelijk van de configuratie en modelgrootte), wat aanzienlijk lager is dan de "Full TEE" benadering (die vaak onmogelijk is door geheugenbeperkingen) of ZKP-methoden.
Opslag: De opslagkosten voor audit-traces zijn beheersbaar en kunnen verder worden geoptimaliseerd via sparse checkpointing.
Nauwkeurigheid: Numerieke fouten door floating-point verschillen tussen hardware zijn klein en binnen acceptabele toleranties (vooral bij gebruik van float32).
Beveiliging:
- Adversarial Attacks: Het paper toont aan dat het exploiteren van numerieke toleranties om kwaadaardige perturbaties te verbergen (bijv. via bfloat16) moeilijk is; float32 biedt een duidelijke veiligheidsmarge.
- Parameter Poisoning: De hoeveelheid verandering die nodig is om een backdoor in te bouwen, is vele ordes van grootte groter dan de natuurlijke numerieke fouten, waardoor dergelijke aanvallen detecteerbaar zijn.
- Steekproeven: Zelfs het verifiëren van een klein percentage blokken biedt een hoge waarschijnlijkheid van detectie voor aanvallers.

5. Betekenis en Conclusie

AFTUNE lost een fundamenteel probleem op in de AI-industrie: het creëren van vertrouwen in "black box" cloud-diensten.

Het stelt organisaties in staat om hun data en modellen veilig uit te besteden zonder de controle over de integriteit van het proces te verliezen.
Het maakt het mogelijk om proprietaire modellen (waarbij de gewichten geheim blijven) toch te auditeren.
Door de ontkoppeling van uitvoering en verificatie, blijft de primaire workload snel op standaard hardware, terwijl de verificatie lichtgewicht en selectief gebeurt.

Kortom, AFTUNE transformeert ondoorzichtige AI-diensten naar transparante, verantwoorde platformen waar vertrouwen wordt gebaseerd op verifieerbaar bewijs in plaats van op het blinde vertrouwen in de provider.