CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents

Questo paper introduce un'architettura di sicurezza per gli agenti di uso informatico basata sulla pianificazione "single-shot" e sull'isolamento strutturale, che garantisce l'integrità del flusso di controllo contro gli attacchi di iniezione di prompt e di deviazione dei rami, permettendo di conciliare sicurezza rigorosa e utilità operativa senza compromettere le prestazioni.

Hanna Foerster, Tom Blanchard, Kristina Nikolic, Ilia Shumailov, Cheng Zhang, Robert Mullins, Nicolas Papernot, Florian Tramèr, Yiren Zhao

Pubblicato 2026-03-10
📖 5 min di lettura🧠 Approfondimento

Each language version is independently generated for its own context, not a direct translation.

🐫 I Cammelli al Computer: Come Proteggere gli Agenti AI dalle Truffe

Immagina di avere un cammello (l'Intelligenza Artificiale) molto intelligente, capace di guidare un'auto, aprire un browser e fare ricerche per te. Questo cammello è un "Agente AI" che usa il computer per te.

Il problema? Se qualcuno gli sussurra all'orecchio delle bugie mentre guarda la strada (lo schermo del computer), il cammello potrebbe imboccare la strada sbagliata, rubare le tue chiavi (password) o spendere i tuoi soldi.

Questo articolo spiega come costruire un cammello blindato che non può essere ingannato, mantenendo però la sua capacità di lavorare bene.

1. Il Problema: Il Cammello si fida troppo degli occhi

Attualmente, gli agenti AI funzionano così:

  1. Guardano lo schermo.
  2. Pensano: "Cosa devo fare ora?".
  3. Fanno un'azione.
  4. Ripetono.

Il problema è che lo schermo è pieno di "veleno". Un sito web truffaldino può mostrare un pulsante falso che dice "Clicca qui per vincere un milione", ma in realtà ruba i tuoi dati. Se l'AI guarda lo schermo e pensa, può essere ingannata da quel pulsante. È come se un ladro mettesse un cartello "Uscita di sicurezza" su un muro di mattoni: l'AI lo vede, ci crede e ci sbatte contro.

2. La Soluzione: Il "Doppio Cervello" (Architettura Dual-LLM)

Gli autori propongono di dividere il lavoro in due parti distinte, come se avessimo due persone che lavorano insieme:

  • Il Pianificatore (Il Capitano): È un genio seduto in una stanza sicura, senza finestre. Non vede lo schermo, non vede le pubblicità, non vede i siti web. Il suo unico compito è leggere la tua richiesta ("Voglio il meteo di Manchester") e scrivere un piano di battaglia dettagliato su carta, prima di iniziare.

    • Metafora: È come un architetto che disegna la mappa completa di un viaggio prima che l'auto parta. Sa che ci saranno curve, semafori e possibili ostacoli, e decide tutto in anticipo.
  • Il Percepite (Il Soldato): È l'AI che guarda lo schermo. È "in quarantena". Non può pensare o decidere da solo. Deve solo seguire le istruzioni del Capitano. Se il Capitano dice "Cerca il pulsante 'Accetta Cookie'", il Soldato guarda lo schermo, trova il pulsante e clicca. Niente di più.

Il trucco magico: Poiché il Capitano non vede mai lo schermo, non può essere ingannato dalle bugie visuali. Il piano è scritto in modo sicuro.

3. La Sfida: Come guidare senza guardare?

Potresti chiederti: "Ma se il Capitano non vede lo schermo, come fa a sapere se il browser è aperto o se c'è un errore?".
Qui entra in gioco la tecnica "Osserva-Verifica-Agisci".

Il Capitano scrive un piano che dice:

  1. Osserva: "Soldato, guarda lo schermo e dimmi se c'è un browser."
  2. Verifica: "Soldato, controlla se quello che vedi corrisponde alla mia ipotesi (es. 'Siamo su Google?'). Rispondi solo 'Sì' o 'No'."
  3. Agisci: "Se la risposta è Sì, clicca qui. Se è No, prova a riaprire il browser."

Il Capitano ha previsto tutte le possibilità (Sì/No) e ha scritto il piano per coprirle tutte. È come un gioco da tavolo dove hai già scritto le regole per ogni mossa possibile, anche se non sai ancora quale mossa farà l'avversario.

4. Il Nuovo Nemico: Il "Dirottamento dei Rami" (Branch Steering)

Gli autori hanno scoperto che, anche con questo sistema sicuro, c'è ancora un modo per ingannare l'AI. Immagina che il Capitano abbia scritto:
"Se vedi un pulsante 'Accetta Cookie', cliccalo."

Un truffatore può creare un pulsante falso che sembra "Accetta Cookie" ma in realtà è un trucco. Il Soldato (che guarda lo schermo) lo vede, pensa "Sembra un cookie", e clicca. Il Capitano non sa che è un trucco perché non ha visto lo schermo, ha solo ricevuto la risposta "Ho cliccato".

Questo si chiama Branch Steering (Dirottamento dei rami). L'attaccante non cambia il piano (il Capitano rimane fedele), ma manipola l'ambiente per far sì che l'AI prenda un "ramo" del piano che sembra legittimo ma che porta al disastro.

Come ci difendono?
Usano un secondo soldato (un verificatore).

  • Il primo soldato guarda lo schermo e dice: "C'è un cookie".
  • Il secondo soldato guarda lo stesso schermo (o il codice nascosto della pagina) e dice: "Aspetta, quello è un annuncio pubblicitario, non un cookie!".
    Se i due soldati non sono d'accordo, il sistema si ferma e avvisa l'utente.

5. I Risultati: Funziona davvero?

Hanno testato questo sistema su un mondo virtuale di computer (OSWorld).

  • Sicurezza: Il sistema è molto sicuro contro le truffe classiche. L'AI non può essere costretta a fare cose che non erano nel piano originale.
  • Efficienza:
    • Per i modelli AI piccoli e gratuiti (Open Source), questo sistema li ha resi più intelligenti (fino al 19% in più), perché li ha costretti a pianificare meglio invece di improvvisare.
    • Per i modelli AI giganti e costosi, hanno mantenuto circa il 57% della loro efficacia originale. Non è perfetto, ma è un compromesso necessario per la sicurezza.

In Sintesi

Questo paper ci dice che possiamo rendere gli agenti AI sicuri come una cassaforte, separando chi pensa (e non vede le truffe) da chi guarda (e esegue solo ordini).
Non è una soluzione perfetta (c'è ancora il rischio di essere ingannati da trucchi visivi molto sottili), ma è un enorme passo avanti. È come passare da un'auto con il finestrino aperto (dove il vento e i sassi possono farti male) a un'auto con i finestrini blindati e un navigatore che ti dice esattamente dove andare, anche se fuori c'è il caos.

Il messaggio finale: La sicurezza e l'utilità possono coesistere. Non dobbiamo scegliere tra un'AI potente e un'AI sicura; possiamo avere entrambe, purché costruiamo l'architettura giusta.