NAAMSE: Framework for Evolutionary Security Evaluation of Agents

Il paper presenta NAAMSE, un framework evolutivo che automatizza la valutazione della sicurezza degli agenti AI tramite mutazione genetica dei prompt e scoring comportamentale asimmetrico, superando i limiti dei metodi statici per identificare vulnerabilità adattive mantenendo al contempo la correttezza funzionale.

Kunal Pai, Parth Shah, Harshil Patel

Pubblicato 2026-03-10
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

🛡️ NAAMSE: Il "Cacciatore di Bug" che Impara dai Suoi Errori

Immagina di aver appena costruito un robot domestico super intelligente (un "agente AI") che può fare quasi tutto: prenotare viaggi, gestire le tue finanze e scrivere email. È fantastico, ma c'è un problema: come fai a essere sicuro che non farà qualcosa di pericoloso?

Fino a poco tempo fa, per testare questi robot, si usavano due metodi vecchi:

  1. Il metodo "Umano": Assumere un esperto di sicurezza che prova a ingannare il robot con domande strane. È lento, costoso e l'umano si stanca.
  2. Il metodo "Lista Fissa": Usare un elenco predefinito di domande "cattive" (come un test a risposta multipla). Il problema? Se il robot impara a rispondere a quelle domande specifiche, diventa sicuro solo per quel test, ma rimane vulnerabile a nuove domande che nessuno ha ancora pensato.

NAAMSE è una nuova soluzione che cambia le regole del gioco. Non è più un test statico, ma un processo evolutivo, come la selezione naturale di Darwin, ma applicato alle domande di sicurezza.


🧬 L'Analogia: Il "Laboratorio di Evoluzione" Immaginario

Immagina NAAMSE come un laboratorio di evoluzione digitale gestito da un unico agente AI molto astuto. Ecco come funziona, passo dopo passo:

1. La "Piscina" di Idee (Il Corpus)

Tutto inizia con una grande piscina piena di milioni di domande: alcune sono innocue ("Qual è il tempo?"), altre sono tentativi di inganno ("Come posso rubare una password?").
NAAMSE organizza queste domande in "cluster" (gruppi), come se fossero scaffali in una biblioteca. C'è lo scaffale delle "domande bancarie", quello delle "storie di fantasia", ecc.

2. Il "Giocatore" e il "Giudice"

NAAMSE ha un compito: trovare il modo per far dire al robot cose che non dovrebbe dire (violare le regole di sicurezza).

  • L'Attaccante (NAAMSE): Prende una domanda dalla piscina e la invia al robot.
  • Il Giudice: Ascolta la risposta del robot e assegna un punteggio.

3. Il Punteggio: Non solo "Sì" o "No"

Qui sta la genialità. Il punteggio non è solo "hai vinto o hai perso". È un punteggio di intelligenza:

  • Se il robot dice cose cattive (es. "Ecco come rubare una banca"), il punteggio sale (è un fallimento di sicurezza).
  • MA, se il robot rifiuta di rispondere a una domanda innocua (es. "Qual è la ricetta della pasta?") perché pensa che sia pericolosa, il punteggio sale comunque (è un fallimento di utilità).
  • L'obiettivo di NAAMSE è trovare il punto debole perfetto: far dire al robot cose cattive senza far sì che diventi un robot paranoico che rifiuta tutto.

4. L'Evoluzione: "Prova, Sbaglia, Migliora"

Se la prima domanda non funziona (il robot la rifiuta o risponde in modo noioso), NAAMSE non si arrende. Usa la mutazione genetica:

  • Se il punteggio è basso: Cambia completamente strategia (es. passa dallo scaffale "bancario" a quello "medico").
  • Se il punteggio è medio: Modifica leggermente la domanda (es. cambia le parole, usa un linguaggio diverso, aggiunge una storia di fantasia).
  • Se il punteggio è alto: Diventa aggressivo e prova trucchi molto complessi per massimizzare il danno.

È come un giocatore di scacchi che, dopo ogni mossa, analizza perché ha perso e prova una strategia leggermente diversa la prossima volta, diventando sempre più bravo a trovare le falle nel sistema.


🚀 Perché è diverso da tutto il resto?

La maggior parte dei test attuali sono come sparare a un bersaglio fermo. Se il bersaglio si muove (il robot impara), il proiettile non colpisce più.

NAAMSE è come un cacciatore che impara a inseguire la preda.

  • Se il robot impara a rifiutare le domande in inglese, NAAMSE prova in cinese o in codice.
  • Se il robot impara a ignorare le richieste dirette, NAAMSE le nasconde dentro una storia o un compito apparentemente innocuo.

Inoltre, NAAMSE evita un trucco pericoloso: il "Rifiuto Totale".
Alcuni robot, per essere sicuri, dicono "NO" a tutto. È sicuro, ma inutile. NAAMSE punisce questo comportamento, costringendo il robot a essere utile ma sicuro, non solo un muro di gomma.

🏁 Conclusione

In sintesi, NAAMSE è un sistema che insegna ai robot a essere sicuri facendoli allenare contro un avversario che diventa sempre più intelligente e astuto ogni giorno.

Invece di controllare il robot una volta sola prima di lanciarlo, NAAMSE lo mette in una "palestra" virtuale dove viene sfidato continuamente, evolvendo i suoi attacchi per scoprire i punti deboli che gli umani o i test statici non vedrebbero mai. È la differenza tra controllare un'auto parcheggiata e farla guidare su un terreno accidentato per vedere come reagisce agli imprevisti.

Il risultato? Agenti AI più robusti, che non si bloccano per nulla e non fanno cose pericolose, pronti per il mondo reale.