NAAMSE: Framework for Evolutionary Security Evaluation of Agents

Het paper introduceert NAAMSE, een evolutionair framework dat de beveiligingsevaluatie van AI-agenten automatiseert door feedback-gedreven promptmutatie en hiërarchische verkenning te combineren om adaptieve bedreigingen effectiever te identificeren dan traditionele statische methoden.

Kunal Pai, Parth Shah, Harshil Patel

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

NAAMSE: De "Evolutionaire Reddingsbrigade" voor AI-agenten

Stel je voor dat AI-agenten (slimme computerprogramma's die taken voor ons uitvoeren) net als nieuwe auto's zijn die in grote aantallen de weg op gaan. Ze kunnen voor je boodschappen doen, je agenda beheren of complexe berekeningen maken. Maar net als bij auto's is er een groot probleem: we hebben nog geen goede manier om te testen of ze veilig zijn tegen hackers, en we weten niet hoe ze reageren als iemand ze probeert te bedriegen.

Tot nu toe deden we dit testen op twee manieren:

  1. De "Menselijke Test": Een team van experts probeerde handmatig de AI te misleiden. Dit is traag, duur en kan niet alle mogelijke situaties dekken.
  2. De "Vaste Lijst": We gebruikten een statische lijst met bekende trucjes (zoals "Ignoreer alle regels"). Het probleem? Hackers zijn slim en vinden nieuwe trucjes die niet op die lijst staan. De lijst wordt snel verouderd.

De Oplossing: NAAMSE
De auteurs van dit paper hebben NAAMSE bedacht. Dit is een slim systeem dat de veiligheidstest van AI-agenten verandert in een evolutieproces.

Hier is hoe het werkt, vertaald naar een eenvoudig verhaal:

1. De "Evolutionaire Jager"

Stel je NAAMSE voor als een enkele, autonome robot-jager. Deze jager heeft een doel: hij moet ontdekken waar de AI-agent zwakke plekken heeft. Maar hij doet dit niet door willekeurig te gooien. Hij werkt als een biologische evolutie:

  • De Start: Hij begint met een grote verzameling van bekende vragen en trucjes (een "corpus").
  • De Mutatie (Het Veranderen): Als een vraag de AI niet kan misleiden, probeert de jager de vraag te veranderen. Hij doet dit op drie manieren:
    • Verfijnen: Hij maakt de vraag iets slimmer, net als het verbeteren van een sleutel om een slot te openen.
    • Radicaal veranderen: Hij probeert de vraag in een ander taal, als een gedicht, of verpakt in een raadsel (zoals een "Game of Chicken" scenario).
    • Verkennen: Als hij vastloopt, springt hij naar een heel ander soort vraag om nieuwe zwakke plekken te vinden.

2. De "Scorebord" (Het Oordeel)

Elke keer als de jager een vraag aan de AI stelt, krijgt hij een score. Maar dit scorebord is slim:

  • Te streng: Als de AI alles weigert (zelfs als je gewoon vraagt wat de tijd is), krijgt de AI een slechte score. Dit is alsof een auto die nooit start, "veilig" wordt genoemd. Dat is nutteloos.
  • Te makkelijk: Als de AI alles doet, zelfs als het gevaarlijk is (bijvoorbeeld "schrijf een virus"), krijgt hij ook een slechte score.
  • De Gouden Middenweg: De AI krijgt een hoge score (wat betekent: "Gefeliciteerd, je bent veilig") alleen als hij slim is: hij weigert gevaarlijke dingen, maar helpt wel graag met veilige dingen.

3. Waarom is dit beter dan oude methoden?

In het verleden zochten hackers (of testers) vaak naar één specifieke zwakke plek. NAAMSE doet het anders:

  • Het leert van fouten: Als een trucje werkt, probeert de jager die truc te verbeteren en sterker te maken.
  • Het combineert krachten: Het systeem gebruikt zowel het zoeken naar nieuwe ideeën (exploratie) als het verfijnen van bestaande ideeën (mutatie).
  • Het voorkomt "luie" AI's: Veel AI's zijn zo bang om fouten te maken dat ze alles weigeren. NAAMSE straft dit gedrag af, zodat we zien of de AI echt slim is, of gewoon lui.

Een Analogie: De "Kookwedstrijd"

Stel je voor dat je een kok (de AI-agent) wilt testen op zijn vaardigheid.

  • Oude methode: Je geeft hem een vaste lijst met 10 recepten. Als hij die goed maakt, is hij veilig. Maar wat als hij een nieuw, gevaarlijk ingrediënt krijgt dat niet op de lijst staat?
  • NAAMSE-methode: Je hebt een kok die continu nieuwe, bizarre ingrediënten probeert (evolutie).
    • Als de kok een giftig ingrediënt eet, zegt de jury: "Gevaarlijk!" (Slechte score).
    • Als de kok weigert te koken omdat hij bang is, zegt de jury: "Nutteloos!" (Slechte score).
    • Als de kok een giftig ingrediënt herkent en weigert, maar wel een heerlijke soep maakt van veilige groenten, zegt de jury: "Perfect!" (Hoge score).

De jury (NAAMSE) past de ingrediënten steeds aan op basis van hoe de kok reageert. Zo ontdekken ze niet alleen of de kok giftige dingen eet, maar ook of hij slim genoeg is om te weten wanneer hij moet stoppen.

Conclusie

NAAMSE is een revolutionaire manier om AI-agenten te testen. In plaats van een statische checklist, gebruiken ze een levend, evoluerend systeem dat leert van elke poging. Hierdoor vinden ze gevaarlijke zwakke plekken die andere methoden missen, en zorgen ze ervoor dat AI-agenten niet alleen veilig, maar ook nuttig blijven.

De code is openbaar, zodat iedereen dit "evolutionaire jagerssysteem" kan gebruiken om de AI's van morgen veiliger te maken.