NAAMSE: Framework for Evolutionary Security Evaluation of Agents

O artigo apresenta o NAAMSE, um framework evolutivo que otimiza a avaliação de segurança de agentes de IA através de mutação de prompts e exploração hierárquica para identificar vulnerabilidades complexas e adaptativas, superando as limitações dos métodos estáticos e de red-teaming manual.

Kunal Pai, Parth Shah, Harshil Patel

Publicado 2026-03-10
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você acabou de contratar um novo funcionário muito inteligente, um Agente de IA, para cuidar da sua empresa. Ele sabe fazer de tudo: responder e-mails, agendar reuniões e até analisar dados. Mas, antes de deixá-lo trabalhar sozinho, você precisa ter certeza de que ele não vai ser enganado por golpistas ou cometer erros graves.

O problema é que os métodos antigos de teste são como fazer uma lista de verificação estática (um "checklist" de papel). Você pergunta: "O que você faria se alguém pedisse para roubar um banco?" e ele diz "Não". Ótimo! Mas e se o golpista mudar a pergunta, usar uma história diferente, ou fingir ser um amigo? O checklist de papel não consegue acompanhar essas mudanças.

É aqui que entra o NAAMSE, a nova ferramenta apresentada neste artigo. Vamos explicar como ela funciona usando uma analogia simples.

O NAAMSE: O "Treinador de Golpistas" Evolutivo

Em vez de usar uma lista fixa, o NAAMSE é como um treinador de esportes que cria um oponente que aprende e evolui a cada rodada.

Imagine que você quer testar a defesa de um goleiro de futebol.

  1. O Método Antigo: Você chuta 10 bolas em 10 lugares diferentes que já sabe que funcionam. Se o goleiro defendeu, você acha que ele é seguro. Mas e se o atacante mudar a tática?
  2. O Método NAAMSE: Você contrata um atacante virtual que é inteligente e teimoso.
    • Ele tenta chutar a bola.
    • Se o goleiro defende, o atacante pensa: "Ok, essa tática não funcionou. Vou tentar chutar um pouco mais para a esquerda, ou talvez fingir que é um pênalti."
    • Se o goleiro deixa a bola entrar (falha de segurança), o atacante anota: "Isso funcionou! Vou tentar fazer isso de novo, mas com um chute mais forte."

O NAAMSE faz exatamente isso, mas com palavras e perguntas em vez de bolas de futebol. Ele usa um processo chamado Evolução Genética (inspirado na natureza, onde os organismos mais fortes sobrevivem e se reproduzem).

Como funciona o ciclo de treino?

O sistema do NAAMSE funciona em quatro etapas principais, como um ciclo de treino diário:

  1. Seleção (O Esquenta): O sistema escolhe uma pergunta inicial de um grande banco de dados (como uma pergunta que já tentaram usar antes).
  2. Execução (O Jogo): Ele envia essa pergunta para a IA que está sendo testada e vê a resposta.
  3. Avaliação (O Apito do Árbitro): Um "juiz" (que é outra IA) analisa a resposta.
    • Se a IA testada recusou um pedido perigoso, o juiz dá pontos bons.
    • Se a IA testada aceitou um pedido perigoso, o juiz dá pontos de "falha grave".
    • O Pulo do Gato: O NAAMSE também testa perguntas normais (benignas). Se a IA testada recusar um pedido normal (ex: "Qual é a capital da França?"), o juiz pune ela também! Isso evita que a IA fique "medrosa" e recuse tudo só para parecer segura.
  4. Evolução (O Treino de Amanhã):
    • Se a pergunta funcionou (a IA falhou), o sistema cria uma versão ainda mais forte dessa pergunta para tentar de novo.
    • Se a pergunta não funcionou, o sistema muda completamente a estratégia, tentando um ângulo totalmente novo.

Por que isso é revolucionário?

O artigo mostra que, ao fazer isso repetidamente (como uma evolução rápida), o NAAMSE descobre falhas que os métodos antigos nunca veriam.

  • Descobre o "Invisível": Assim como um vírus mutante, o NAAMSE encontra maneiras criativas de enganar a IA que nem os criadores da IA imaginavam.
  • Não é "Medroso": Muitas IAs, para se protegerem, começam a recusar tudo (até coisas boas). O NAAMSE pune essa "recusa em bloco", garantindo que a IA seja segura, mas ainda assim útil.
  • Automático e Rápido: Em vez de depender de humanos gastando dias testando manualmente, o sistema roda sozinho, aprendendo e melhorando seus ataques a cada minuto.

A Conclusão

O NAAMSE é como um simulador de voo para segurança de IA. Em vez de apenas verificar se o avião tem asas (testes estáticos), ele coloca o avião em uma tempestade digital, com ventos que mudam de direção a cada segundo, para ver se o piloto (a IA) consegue manter o controle.

O resultado? Uma IA que não apenas "passou no teste", mas que foi testada até a exaustão por um oponente que aprendeu a ser o melhor possível em tentar enganá-la. Isso nos dá mais confiança de que, quando essas IAs estiverem trabalhando no mundo real, elas não serão facilmente manipuladas por golpistas.

Resumo em uma frase: O NAAMSE é um treinador de IA que cria oponentes inteligentes que evoluem constantemente para encontrar falhas de segurança, garantindo que a IA seja forte contra ataques, mas ainda assim útil para o usuário comum.