Proof-of-Guardrail in AI Agents and What (Not) to Trust from It

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot-assistent huurt die voor jou nieuwsberichten schrijft, beleggingsadvies geeft of verhalen voor kinderen bedenkt. Je wilt er zeker van zijn dat deze robot niet leugens vertelt, geen gevaarlijke dingen zegt en zich aan de regels houdt.

Het probleem is: Je ziet niet wat er binnenin die robot gebeurt. De maker van de robot zegt misschien: "Ik heb een strenge veiligheidscontrole ingebouwd!" Maar hoe weet jij dat hij niet gewoon die controle heeft uitgeschakeld of bedrogen? Het is alsof een bakker zegt: "Ik heb geen gif in mijn koekjes gedaan," maar jij mag de keuken niet binnen.

Dit artikel introduceert een oplossing genaamd "Proof-of-Guardrail" (Bewijs van Veiligheidscontrole). Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: "Claim" vs. "Bewijs"

Normaal gesproken moet je de maker van de AI gewoon vertrouwen. Dat is gevaarlijk.

De Claim: De maker zegt: "Ik heb een veiligheidsfilter." (Dit kan een leugen zijn).
Het Bewijs: We willen een onweerlegbaar bewijs dat het filter echt is gebruikt.

2. De Oplossing: De "Onbreekbare Glazen Kooi" (TEE)

Om dit te bewijzen, gebruiken de onderzoekers een technologie die TEE (Trusted Execution Environment) heet.

De Analogie: Stel je voor dat je een robot in een glazen, onbreekbare kooi zet. Deze kooi staat op een beveiligde locatie (zoals een datacentrum van Amazon).
Hoe het werkt: De maker van de AI mag de robot in de kooi zetten, maar hij kan de kooi niet openmaken om de regels te veranderen. Zodra de robot een antwoord geeft, maakt de kooi een digitaal handtekening (een cryptografisch bewijs).
Het resultaat: Deze handtekening zegt: "Ik zweer bij mijn hardware dat dit antwoord is gegenereerd nadat de veiligheidsregels zijn gecontroleerd."

3. Waarom is dit slim? (Het Geheim)

Je zou denken: "Als we de kooi openmaken om te controleren, zien we dan ook de geheime recepten van de bakker?"
Nee! En dat is het geniale deel.

De AI (de robot) is het geheime recept van de maker. Die blijft verborgen in de kooi.
De Veiligheidsregels (de guardrails) zijn openbaar bekend.
De kooi bewijst alleen dat de openbare regels zijn toegepast, zonder dat de maker zijn geheime AI hoeft te laten zien. Het is alsof je een bewijs krijgt dat de bakker de veiligheidscheck heeft gedaan, zonder dat je zijn geheime koekjesrecept hoeft te zien.

4. Wat hebben ze getest?

De onderzoekers hebben dit systeem getest met een AI-bot die op Telegram praat.

Snelheid: Het kost iets meer tijd (ongeveer 30% langer) om een antwoord te geven, omdat de "kooi" extra controles doet. Maar voor een mens die chat, is dat nauwelijks merkbaar.
Kosten: Het is duurder om zo'n beveiligde kooi te huren dan een gewone computer, maar voor belangrijke dingen (zoals financieel advies) is dat een kleine prijs voor vertrouwen.
Hacken: Ze hebben geprobeerd de kooi te hacken of de regels te veranderen. Het systeem detecteerde dit direct en gaf een foutmelding.

5. De Grootste Waarschuwing: "Het is geen garantie voor waarheid"

Dit is het belangrijkste punt van het artikel. Proof-of-Guardrail is geen "Proof-of-Safety" (Bewijs van Veiligheid).

De Analogie: Stel je voor dat je een bewijs hebt dat een politieagent een controle heeft gedaan. Dat betekent niet dat de agent slim genoeg is om elke crimineel te vangen, of dat de agent niet zelf corrupt is.
Het risico: Als de maker van de AI slim genoeg is, kan hij de veiligheidsregels "omzeilen" (jailbreaken) voordat ze in de kooi gaan. Dan krijg je wel een bewijs dat de regels zijn gebruikt, maar de AI geeft toch nog steeds gevaarlijk advies.
Conclusie: Het bewijs zegt alleen: "De regels zijn uitgevoerd." Het zegt niet: "Het antwoord is perfect veilig."

Samenvatting

Dit systeem is als een onvervalst certificaat voor een AI. Het geeft gebruikers de zekerheid dat de maker niet heeft gelogen over het gebruik van veiligheidsfilters, zonder dat de maker zijn geheime technologie hoeft te delen.

Het is een enorme stap vooruit voor vertrouwen in AI, maar we moeten er nog steeds kritisch blijven: Het bewijst dat de controle heeft plaatsgevonden, niet dat de controle perfect was.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Proof-of-Guardrail in AI Agents and What (Not) to Trust from It" in het Nederlands.

Titel: Proof-of-Guardrail in AI Agents en wat men hier wel en niet aan moet vertrouwen

1. Het Probleem: Vertrouwen in Remote AI Agents

Naarmate AI-agents steeds vaker worden ingezet als online diensten (bijvoorbeeld chatbots op sociale media), vertrouwen gebruikers vaak op de claims van ontwikkelaars over hoe veiligheidsmaatregelen (guardrails) worden toegepast.

De dreiging: Ontwikkelaars kunnen vals beweren dat ze veiligheidsfilters gebruiken, terwijl ze deze in werkelijkheid overslaan, misconfigureren of aanpassen om schadelijke inhoud te genereren.
De beperking van bestaande oplossingen:
- Open audit: Het is onrealistisch om ontwikkelaars te verplichten hun eigen agenten (vaak met proprietaire prompts en logica) openbaar te maken voor audits.
- Derde partij: In gedecentraliseerde omgevingen bestaat er geen universeel vertrouwd auditeur.
Het gevolg: Gebruikers kunnen niet verifiëren of een antwoord daadwerkelijk is gegenereerd na toepassing van de beloofde veiligheidsregels, wat het vertrouwen in remote agents ondermijnt.

2. Methodologie: Proof-of-Guardrail met TEE

De auteurs stellen Proof-of-Guardrail voor, een systeem dat ontwikkelaars in staat stelt cryptografisch bewijs te leveren dat een antwoord is gegenereerd na uitvoering van een specifieke, open-source veiligheidsfilter (guardrail).

Kerncomponent: Trusted Execution Environment (TEE)
Het systeem maakt gebruik van hardware-gedwongen geïsoleerde omgevingen (zoals AWS Nitro Enclaves of Intel TDX). Code wordt hierin uitgevoerd in een "enclave" die voor de ontwikkelaar zelf niet direct in te zien is, maar wel een cryptografisch ondertekende attestatie kan produceren.
Het Proces:
1. Verpakking: Een wrapper-programma ( $f$ ) bundelt de open-source guardrail ( $g$ ) en de private agent van de ontwikkelaar ( $A$ ).
2. Initialisatie: Het programma $f$ wordt geladen in de TEE. De TEE meet de hash van het programma (de "enclave measurement" $m$ ) om te garanderen dat de exacte code draait.
3. Uitvoering: Bij een gebruikersinput ( $x$ ) voert de wrapper de agent uit, past de guardrail toe, en genereert een antwoord ( $r$ ).
4. Attestatie: De TEE genereert een cryptografisch ondertekend document ( $\sigma$ $σ$ ). Dit document bevat:
  - De meting $m$ (bewijs dat de juiste guardrail-code draait).
  - Een commitment $d$ (een hash van de input $x$ en het antwoord $r$ ).
  - Een handtekening van de TEE-platform (bijv. AWS of Intel).
5. Verificatie: De gebruiker kan dit document offline verifiëren met de open-source code van de guardrail en de publieke verificatiesleutel van de TEE-provider. Als de hashes overeenkomen, is bewezen dat de guardrail is uitgevoerd.

3. Belangrijkste Bijdragen

Cryptografisch Bewijs zonder Privacyverlies: Het systeem garandeert de integriteit van de guardrail-uitvoering zonder dat de ontwikkelaar zijn private agent (system prompts, model weights) hoeft te delen met gebruikers of auditors.
Implementatie en Evaluatie: De auteurs hebben het systeem geïmplementeerd voor OpenClaw-agents (een krachtige open-source agent) en gedeployed op AWS Nitro Enclaves.
Real-world Use Case: Een demo-bot op Telegram die gebruikers in staat stelt om direct via de chat een attestatie op te vragen om te verifiëren of een antwoord veilig is gemodereerd.
Kritische Nuancering: Het paper benadrukt dat "Proof-of-Guardrail" niet gelijkstaat aan "Proof-of-Safety". Het bewijst alleen dat de regels zijn uitgevoerd, niet dat de regels zelf perfect zijn of dat de agent niet is "gejailbreakt".

4. Resultaten

De auteurs hebben het systeem getest op prestaties, kosten en beveiliging:

Beveiliging (Aanvalssimulaties):
- Alle gesimuleerde aanvallen werden gedetecteerd:
  - Wijziging in de guardrail-code leidde tot een mismatch in de enclave-meting ( $m$ ).
  - Wijziging in het attestatie-document leidde tot een ongeldige handtekening.
  - Wijziging in het antwoord ( $r$ ) leidde tot een mismatch in de hash-commitment.
Latentie en Kosten:
- Latentie: Het gebruik van TEE's introduceerde een overhead van gemiddeld 34% (tussen 25% en 38% voor guardrail-uitvoering en antwoordgeneratie). Dit wordt acceptabel geacht voor chatbots.
- Kosten: TEE-instanties (AWS m5.xlarge) zijn aanzienlijk duurder ($0.192/uur) dan standaard instanties ($0.0104/uur), ongeveer 18,5 keer zo duur. Dit komt door het vereiste grote geheugen voor de volledige enclave-omgeving.
Effectiviteit van Guardrails:
- De geteste guardrails (Llama Guard 3 voor content safety en Loki voor feitelijke verificatie) vertoonden imperfecties (F1-scores rond 0.56 - 0.88). Dit bevestigt dat het uitvoeren van de guardrail geen garantie is voor 100% veiligheid.

5. Betekenis en Conclusie

Vertrouwen in een Low-Trust Markt: Proof-of-Guardrail biedt een mechanisme voor eerlijke ontwikkelaars om hun veiligheidsmaatregelen te verifiëren, wat vertrouwen kan opbouwen bij gebruikers en partnerschappen kan stimuleren.
Risico's en Beperkingen:
- Jailbreaking: Een kwaadaardige ontwikkelaar kan de open-source guardrail zelf "jailbreaken" (omzeilen) voordat deze in de TEE wordt geladen. Het bewijs toont dan wel aan dat de jailbreakte versie is uitgevoerd, maar niet dat de output veilig is.
- Niet-uitvoerbaarheid: Het bewijs garandeert integriteit van het proces, niet de kwaliteit van het resultaat.
Aanbeveling: Het paper pleit voor een "best-practice" community-aanpak waarbij gebruikers eisen dat niet alleen de guardrail, maar ook de wrapper-programma's open-source en geverifieerd zijn, gebaseerd op gemeenschappelijke benchmarks en red-teaming resultaten.

Samenvattend: Proof-of-Guardrail is een technisch haalbaar systeem dat cryptografisch bewijst dat veiligheidsregels zijn toegepast, maar het is een instrument voor procesverificatie, geen absolute garantie voor inhoudelijke veiligheid.

Proof-of-Guardrail in AI Agents and What (Not) to Trust from It

1. Het Probleem: "Claim" vs. "Bewijs"

2. De Oplossing: De "Onbreekbare Glazen Kooi" (TEE)

3. Waarom is dit slim? (Het Geheim)

4. Wat hebben ze getest?

5. De Grootste Waarschuwing: "Het is geen garantie voor waarheid"

Samenvatting

Titel: Proof-of-Guardrail in AI Agents en wat men hier wel en niet aan moet vertrouwen

1. Het Probleem: Vertrouwen in Remote AI Agents

2. Methodologie: Proof-of-Guardrail met TEE

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem