FERRET: Framework for Expansion Reliant Red Teaming

O artigo apresenta o FERRET, um novo framework automatizado de red teaming que utiliza expansões horizontais, verticais e meta para gerar conversas adversariais multimodais eficazes, superando as abordagens existentes.

Ninareh Mehrabi, Vitor Albiero, Maya Pavlova, Joanna Bitton

Publicado 2026-03-12
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você acabou de construir um robô superinteligente, capaz de ver imagens e entender conversas. Antes de deixá-lo sair para o mundo, você precisa garantir que ele não vai fazer nada perigoso ou estranho. É aqui que entra o FERRET.

O FERRET é como um "Treinador de Robôs" ou um "Atleta de Ginástica" que trabalha para a Meta. O objetivo dele não é ajudar o robô a ser malvado, mas sim tentar "quebrá-lo" de todas as formas possíveis para descobrir onde ele é fraco, antes que um vilão real o faça.

O nome FERRET significa algo como "Quadro de Testes de Segurança que Depende de Expansões". Mas vamos simplificar: o FERRET é um sistema que aprende a ser um "ator" muito criativo para testar a segurança de outros robôs.

Aqui está como ele funciona, usando uma analogia de construir uma casa de cartas:

1. O Problema: Testes Antigos eram Limitados

Antes do FERRET, os testes de segurança eram de dois tipos:

  • Tipo 1 (O Atirador de Uma Só Tiro): Alguém joga uma pergunta ou uma imagem aleatória no robô e vê se ele responde errado. Se não funcionar, tentam outra coisa. É rápido, mas não explora bem as falhas.
  • Tipo 2 (O Jogador de Xadrez com Regras Fixas): Alguém diz: "Tente fazer o robô dizer uma mentira". O robô tenta, mas precisa que alguém já tenha dito qual mentira tentar. Se ninguém der a ideia, o teste não começa.

O FERRET combina o melhor dos dois mundos e adiciona um terceiro ingrediente mágico.

2. A Solução: As Três "Expansões" do FERRET

O FERRET não apenas joga uma pergunta; ele cria uma conversa inteira que mistura texto e imagens, aprendendo com cada erro. Ele faz isso em três etapas, como se fosse um chef de cozinha refinando uma receita:

🌱 Expansão Horizontal: "A Arte de Começar Bem"

Imagine que você quer convencer alguém a fazer algo. Se você começar com um "Oi, tudo bem?", talvez não funcione. Mas se você começar com uma história interessante, a pessoa escuta.

  • O que o FERRET faz: Ele tenta milhares de "aberturas de conversa" diferentes. Ele olha para o que funcionou no passado (ex: "Perguntas sobre privacidade") e o que falhou. Ele aprende sozinho qual é a melhor "porta de entrada" para a conversa.
  • Analogia: É como um pescador que testa diferentes iscas em diferentes lugares do lago até descobrir exatamente qual isca atrai o peixe que ele quer pegar.

🏗️ Expansão Vertical: "Construindo a Conversa"

Uma vez que ele encontrou uma boa abertura, ele não para por aí. Ele transforma essa única frase em uma conversa longa e complexa.

  • O que o FERRET faz: Ele mistura texto e imagens. Imagine que o robô alvo é um guarda de segurança. O FERRET pode mostrar uma foto de um carro e dizer: "Olhe, é meu carro, posso entrar?". Se o guarda não responder, o FERRET muda a foto e a frase, tentando de novo, até conseguir passar. Ele "empilha" estratégias para criar uma conversa multimodal (texto + imagem).
  • Analogia: É como construir uma casa de cartas. Você começa com a base (a expansão horizontal) e vai adicionando camadas (expansão vertical), misturando cartas de texto e imagens, até que a estrutura fique tão complexa que o robô alvo pode desmoronar (cometer um erro de segurança).

🧠 Expansão Meta: "Criando Novas Regras do Jogo"

Às vezes, jogar pelas regras antigas não funciona. O FERRET é inteligente o suficiente para inventar novas táticas.

  • O que o FERRET faz: Durante a conversa, ele pensa: "E se eu tentar fazer isso de um jeito que nunca ninguém tentou antes?". Ele cria novas estratégias de ataque que nem os criadores do robô alvo imaginavam.
  • Analogia: É como um jogador de xadrez que, percebendo que o oponente sempre defende o rei da mesma forma, decide inventar uma jogada totalmente nova que ninguém viu antes, surpreendendo o oponente.

3. O Resultado: Por que isso é importante?

Os pesquisadores testaram o FERRET contra outros sistemas famosos (como o FLIRT e o GOAT) em robôs modernos (como o Llama, Claude e GPT-4o).

  • O FERRET venceu: Ele conseguiu "quebrar" a segurança dos robôs com muito mais frequência do que os outros métodos.
  • Ele é mais criativo: As conversas que ele cria são mais diversas e menos repetitivas.
  • Ele é mais completo: Ao misturar texto e imagem, ele encontra falhas que testes apenas de texto não veriam.

Conclusão: O "Mal" que faz o "Bem"

Pode parecer estranho criar um sistema para tentar "quebrar" robôs. Mas pense assim: é melhor um robô falhar no laboratório do que na rua.

O FERRET é como um treinador de defesa que simula ataques reais e criativos. Ao encontrar as falhas antes de lançar o produto, os desenvolvedores podem consertar os buracos na segurança. Isso torna a Inteligência Artificial mais segura para todos nós, garantindo que, quando esses robôs estiverem no seu celular ou na sua casa, eles não vão fazer nada perigoso.

Em resumo: O FERRET é o detetive superinteligente que usa criatividade, imagens e conversas longas para garantir que nossos robôs sejam bons cidadãos digitais.