CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents

Dit paper introduceert een veiligheidsarchitectuur voor Computer Use Agents die prompt-injectie-aanvallen voorkomt door een vertrouwd 'Single-Shot' planner te gebruiken om een volledig uitvoeringsgraf vooraf te genereren, terwijl aanvullende maatregelen nodig zijn om branch-steering-aanvallen te weren zonder de functionaliteit te offeren.

Hanna Foerster, Tom Blanchard, Kristina Nikolic, Ilia Shumailov, Cheng Zhang, Robert Mullins, Nicolas Papernot, Florian Tramèr, Yiren Zhao

Gepubliceerd 2026-03-10
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Titel: Camels in de Computer: Hoe we AI-agenten veilig maken tegen hackers

Stel je voor dat je een AI-assistent hebt die je computer voor je kan bedienen. Deze assistent, een "Computer Use Agent" (CUA), kan op je scherm kijken, op knoppen klikken, tekst typen en zelfs software openen. Het is alsof je een robot hebt die je bureau voor je opstelt.

Maar er is een groot probleem: deze robots zijn heel makkelijk te bedriegen. Als een hacker een nep-advertentie of een valse knop op een website plaatst, kan de robot denken: "Oh, ik moet hier op klikken!" en vervolgens je wachtwoorden stelen of je bankrekening leeghalen. Dit heet een "Prompt Injection" aanval.

De auteurs van dit paper zeggen: "Nee, we kunnen dit oplossen!" Ze hebben een slimme manier bedacht om deze robots veilig te maken, zelfs als ze door de computer van een hacker lopen.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het oude probleem: De robot die te veel ziet

Normaal gesproken werkt een AI-agent als een mens die een taak doet:

  • Kijken: "Wat zie ik op het scherm?"
  • Denken: "Wat moet ik nu doen?"
  • Doen: "Klikken!"
  • Herhalen: "Kijk weer, denk weer, doe weer..."

Het gevaar is dat de "Denk"-fase (het brein van de AI) ook het scherm ziet. Als er een valse knop op het scherm staat, denkt de AI: "Die knop is belangrijk, ik klik erop!" en hij valt in de val.

2. De oplossing: Twee robots in plaats van één (De "Dual-LLM" architectuur)

De auteurs splitsen de taak op in twee gescheiden robots, net als een koning en een spion.

  • De Koning (De Planner): Deze zit in een beveiligde kamer (een "privilege zone"). Hij ziet niets van het scherm. Zijn enige taak is om een volledig stappenplan te schrijven voordat hij de computer binnenkomt. Hij denkt: "Eerst open ik Chrome, dan ga ik naar de weerwebsite, dan typ ik 'Manchester' in." Hij maakt zelfs een plan voor als het misgaat: "Als de website niet laadt, probeer ik het opnieuw."
  • De Spion (De Waarnemer): Deze robot zit in een quarantaine-ruimte. Hij ziet wel het scherm, maar hij mag niet denken of beslissen. Hij is alleen een camera en een hand. Hij kijkt naar het plan van de Koning en voert alleen de instructies uit: "Kijk, is Chrome open? Ja? Dan klik ik op het icoontje."

De analogie:
Stel je voor dat je een chef (De Koning) hebt die een recept schrijft in een veilig kantoor. De kok (De Spion) staat in de keuken en ziet alleen de ingrediënten. De kok mag niet zelf beslissen om suiker toe te voegen als er een valse sticker op de suikerzak staat; hij volgt strikt het recept van de chef. Als er een gif in de suiker zit, is dat een probleem voor de kok, maar de chef heeft al bepaald dat er suiker moet worden gebruikt, niet gif.

3. Het nieuwe probleem: "Branch Steering" (Het omleiden van de weg)

De auteurs ontdekten dat hackers een nieuwe manier vonden om dit systeem te omzeilen. Ze noemen dit "Branch Steering".

Stel je voor dat de Koning een plan heeft: "Ga naar de ingang, en als de deur open is, ga naar links. Als de deur dicht is, ga naar rechts."
De hacker kan de deur niet openbreken (dat is verboden), maar hij kan wel een nep-deur neerzetten die eruitziet alsof hij open is.

  • De Spion kijkt naar de nep-deur en zegt: "Deur is open!"
  • De Koning (die het plan al had) zegt: "Oké, ga dan naar links."
  • Maar "naar links" leidt nu naar een valstroom van de hacker.

De hacker heeft de AI niet gedwongen om iets nieuws te doen; hij heeft de AI misleid om een bestaande, veilige route te kiezen die per ongeluk gevaarlijk is geworden.

4. De extra beveiliging: De "Tweede Mening"

Om dit op te lossen, voegen de auteurs een dubbel-check toe.
Voordat de Spion een knop indrukt, laat hij zijn bevindingen zien aan een onafhankelijke controleur (een tweede AI).

  • Spion: "Ik zie een knop die zegt 'Accepteer Cookies'."
  • Controleur: "Laat me de code van de website zien. Oh, wacht, die knop zit in een advertentieblok dat door een hacker is geplaatst. Dat is verdacht!"

Als de twee niet overeenkomen, stopt de robot en zegt hij: "Ik ga dit niet doen."

5. Wat levert dit op?

De auteurs hebben dit getest op een heleboel taken (zoals weer checken, bestanden openen, etc.).

  • Veiligheid: Het werkt! De robots kunnen geen willekeurige commando's meer uitvoeren die niet in het plan stonden.
  • Snelheid: Het is niet perfect. De robots zijn iets trager dan zonder beveiliging (ongeveer 57% van de oorspronkelijke snelheid voor de slimste modellen), maar voor kleinere, goedkopere modellen wordt het zelfs beter (tot 19% sneller), omdat de slimme "Koning" het zware denkwerk doet.
  • Privacy: Je kunt de "Koning" (die het plan maakt) in de cloud laten draaien, en de "Spion" (die naar je scherm kijkt) op je eigen laptop. Zo ziet de cloud nooit je persoonlijke schermbeelden.

Conclusie

Dit paper laat zien dat we AI-agenten veilig kunnen maken door ze te splitsen in een planner (die veilig is) en een uitvoerder (die het scherm ziet). Hoewel hackers nog steeds kunnen proberen om de uitvoerder te misleiden, is het nu veel moeilijker om de hele computer over te nemen. Het is als het bouwen van een burcht met een onzichtbare muur tussen de commandant en de soldaten: de soldaten kunnen niet plotseling beslissen om de poort open te gooien, tenzij de commandant dat al had gepland.

Kortom: Camels (de AI-agenten) kunnen nu veilig computers gebruiken, zolang ze maar een goed beveiligd plan hebben en niet blindelings naar nep-advertenties kijken!