Toward Securing AI Agents Like Operating Systems

Oorspronkelijke auteurs: Lukas Pirch, Micha Horlboge, Patrick Großmann, Syeda Mahnur Asif, Klim Kireev, Thorsten Holz, Konrad Rieck

Gepubliceerd 2026-05-15✓ Author reviewed ⓘ

📖 6 min leestijd🧠 Diepgaand

Bekijk op arXiv ↗PDF ↗

CC BY 4.0

Oorspronkelijke auteurs: Lukas Pirch, Micha Horlboge, Patrick Großmann, Syeda Mahnur Asif, Klim Kireev, Thorsten Holz, Konrad Rieck

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je een super slimme, ongelooflijk enthousiaste persoonlijke assistent hebt ingehuurd met de naam "Agent". Deze assistent kan je e-mails lezen, je agenda beheren, vluchten boeken en zelfs voor jou code schrijven. Het is alsof je een magische werknemer hebt die nooit slaapt.

Maar hier zit de addertje onder het gras: je hebt deze werknemer de sleutels gegeven van je hele huis, je bankrekening en je dagboek. Als een slimme dief de assistent kan overtuigen dat hij jou is, of het kan overhalen om de achterdeur open te doen, krijgt de dief alles in handen.

Dit is het kernprobleem dat het artikel aanpakt. De auteurs stellen dat we deze AI-agenten bouwen alsof het gloednieuwe, magische wezens zijn, maar we zouden ze eigenlijk moeten behandelen als Besturingssystemen (de software die je computer laat draaien, zoals Windows of macOS).

Hier is de uiteenzetting van hun bevindingen, met gebruikmaking van eenvoudige analogieën:

1. Het Grote Idee: De Agent is het Besturingssysteem

De auteurs zeggen: "Stop met het zien van de AI als slechts een chatbot. Zie het als het OS van je digitale leven."

De AI (LLM) is de Gebruiker: In een computer typt de gebruiker commando's. In een AI-agent is het het Grote Taalmodel (het "brein") dat de commando's typt. Maar net zoals een menselijke gebruiker kan worden bedrogen door een phishing-e-mail, kan een AI worden bedrogen door een "jailbreak"-prompt.
De Hulpmiddelen zijn Systeemoproepen: Wanneer je op je computer op "Afdrukken" klikt, controleert het OS of je toestemming hebt. Wanneer een AI wil "een e-mail sturen", is dat een hulpmiddel. Het artikel stelt dat deze hulpmiddelen moeten worden behandeld als strikte systeemoproepen, niet als vrijblijvende commando's.
De Runtime is de Kernel: Het deel van de software dat de code daadwerkelijk uitvoert, is de "Kernel". In een veilige computer is de Kernel de baas. Het bepaalt wie wat mag aanraken. Bij huidige AI-agenten is de "Kernel" vaak te aardig en laat het de "Gebruiker" (de AI) doen wat hij wil, zelfs als het gevaarlijk is.

2. Het Probleem: Het "Open Huis"-feest

Het artikel bekijkt populaire AI-agenten (zoals OpenClaw en zijn verwanten) en stelt vast dat ze zijn gebouwd als een open huis waar iedereen binnen kan lopen en alles kan aanraken.

Geen Muren: In een veilige computer zijn verschillende programma's geïsoleerd. Als een virus je rekenmachine-app infecteert, zou het niet je bankbestanden moeten kunnen lezen. Maar bij deze AI-agenten bevinden de "rekenmachine" (een hulpmiddel) en de "bankbestanden" (geheugen) zich allemaal in dezelfde kamer. Als de AI in de war raakt, kan het ze per ongeluk (of kwaadwillig) door elkaar halen.
De "Vertrouw Me"-Fout: Deze agenten vertrouwen erop dat de AI zich "herinnert" om veilig te zijn. Ze hebben regels zoals "Verwijder geen bestanden", maar deze zijn gewoon in gewoon Engels geschreven. Als een hacker een truc fluistert naar de AI, vergeet de AI de regel. Het is alsof je een bewaker vraagt om te waken, maar hem vertelt: "Gebruik gewoon je beste oordeel."
Het "Derde Partij"-Risico: Deze agenten laten je "vaardigheden" installeren (zoals apps). Stel je voor dat je een "Weer-app" kunt downloaden die in het geheim een achterdeur naar je bankrekening heeft. Het artikel vond dat veel van deze agenten je toestaan deze vaardigheden te installeren zonder te controleren of ze veilig zijn.

3. Het Experiment: De Agenten Breken

De onderzoekers namen vier populaire AI-agenten en probeerden ze te breken, optredend als een hacker met een bescheiden vaardigheidsniveau. Ze hoefden geen genieën te zijn; ze moesten alleen weten hoe het "huis" was gebouwd.

Wat ze vonden:

OpenClaw (De "Vanilla" Agent): Dit was de populairste. Het was kwetsbaar voor elk enkel aanval dat de onderzoekers probeerden. Het was alsof je de voordeur, achterdeur en ramen wijd open liet staan.
IronClaw (De "Veiligheid" Agent): Deze probeerde veiliger te zijn. Het zette sommige hulpmiddelen in een "sandbox" (een glazen doos waar ze de rest van het huis niet kunnen aanraken). Het deed het beter, maar de onderzoekers vonden nog steeds manieren om het te bedriegen of het glas te breken.
Nanobot (De "Minimale" Agent): Deze had zeer weinig code, in de hoop dat minder code minder bugs betekent. Maar zelfs met een kleine codebasis miste het de basis "muren" die nodig zijn om gegevens gescheiden te houden.
NemoClaw (De "Wrapper" Agent): Deze zette de hele agent in een veilige container (zoals een zeecontainer). Het was het moeilijkst te breken, maar de onderzoekers vonden nog steeds een manier om naar binnen te gluren of het te bedriegen.

Het Schokkende Resultaat: Zelfs de "veilige" versies faalden bij basiszaken, zoals het voorkomen dat één gebruiker de privé-notities van een andere gebruiker leest, of het voorkomen dat de agent berichten stuurt naar vreemden.

4. De Oplossing: Lenen van het Verleden

De belangrijkste conclusie van het artikel is simpel: We hoeven geen nieuwe magie te verzinnen om dit op te lossen. We moeten gewoon de beveiligingsregels gebruiken die we al 50 jaar kennen.

Besturingssystemen hebben deze exacte problemen eerder opgelost. De auteurs stellen voor dat we deze ouderwetse regels toepassen op AI:

Isolatie: Zet elk hulpmiddel in zijn eigen glazen doos (sandbox) zodat het geen andere hulpmiddelen of je privébestanden kan aanraken, tenzij expliciet toegestaan.
Minimale Rechten: Alleen omdat de agent je e-mail kan lezen, betekent niet dat hij het moet. Geef hem alleen de sleutels die hij nodig heeft voor de specifieke taak die hij op dat moment uitvoert.
Versterkte Logging: Houd een record bij van alles wat de agent doet, maar zorg ervoor dat de agent deze records niet kan verwijderen of wijzigen (zoals een vervalvrije beveiligingscamera).
Strikte Grenzen: Laat de AI niet beslissen wat veilig is. De "Kernel" (het systeem) moet de regels afdwingen, niet het "brein" van de AI.

Samenvatting

Het artikel stelt dat AI-agenten momenteel worden gebouwd als wilde, ongeregelde grensgebieden. Ze zijn krachtig maar gevaarlijk omdat ze gevoelige gegevens mengen met onbetrouwbare instructies.

De auteurs zeggen: "Stop met proberen de AI 'slimmer' te maken om veilig te zijn. Bouw in plaats daarvan het systeem eromheen als een veilig Besturingssysteem." Als we de AI behandelen als een gebruiker die moet worden bewaakt en beperkt door een strenge beveiligingsbewaker (het OS), kunnen we deze krachtige tools veilig maken voor gebruik in onze huizen en bedrijven.

De Kernboodschap: We bouwen digitale werknemers met hoofdsleutels voor onze levens, maar we hebben nog geen sloten, hekken of beveiligingsbewakers gebouwd. Het is tijd om de blauwdrukken te lenen van de computerbeveiligingsexperts die al decennia lang die sloten bouwen.

1. Het Grote Idee: De Agent is het Besturingssysteem

2. Het Probleem: Het "Open Huis"-feest

3. Het Experiment: De Agenten Breken

4. De Oplossing: Lenen van het Verleden

Samenvatting

Technische Samenvatting: Op weg naar het beveiligen van AI-agenten zoals besturingssystemen

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Aanspraken

Toward Securing AI Agents Like Operating Systems

1. Het Grote Idee: De Agent is het Besturingssysteem

2. Het Probleem: Het "Open Huis"-feest

3. Het Experiment: De Agenten Breken

4. De Oplossing: Lenen van het Verleden

Samenvatting

Technische Samenvatting: Op weg naar het beveiligen van AI-agenten zoals besturingssystemen

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Aanspraken

Meer zoals dit