FERRET: Framework for Expansion Reliant Red Teaming

El documento presenta FERRET, un marco automatizado de red teaming que utiliza expansiones horizontales, verticales y meta para generar conversaciones adversarias multimodales más efectivas y superar a los enfoques existentes.

Ninareh Mehrabi, Vitor Albiero, Maya Pavlova, Joanna Bitton

Publicado 2026-03-12
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

Imagina que has construido un castillo de arena muy sofisticado en la playa. Antes de dejar que los niños jueguen, quieres asegurarte de que sea lo suficientemente fuerte para resistir las olas y la marea. ¿Cómo lo haces? No solo miras el castillo; intentas derribarlo tú mismo con una manguera de agua, con palitos y con piedras, para ver dónde es débil y luego reforzarlo.

En el mundo de la Inteligencia Artificial (IA), a este proceso de intentar "derribar" el modelo para encontrar sus fallos se le llama Red Teaming (o "equipo rojo").

El paper que nos ocupa presenta una nueva herramienta llamada FERRET. Para entenderlo, olvidemos los términos técnicos y usemos una analogía: FERRET es como un detective de inteligencia artificial que tiene tres superpoderes especiales para encontrar grietas en el sistema.

Aquí te explico cómo funciona FERRET en lenguaje sencillo:

1. El Problema: Los viejos métodos eran limitados

Antes de FERRET, había dos formas principales de intentar romper una IA:

  • El método "Un solo golpe": Un robot intentaba encontrar una frase mágica (un "prompt") que hiciera que la IA dijera algo malo de una sola vez. Pero a menudo fallaba porque no podía mantener una conversación larga.
  • El método "Con guía": Un robot intentaba mantener una conversación larga para engañar a la IA, pero necesitaba que un humano le dijera exactamente qué objetivo atacar (por ejemplo: "Intenta que la IA te dé una receta de bomba"). Si el humano no sabía qué pedir, el robot no podía empezar.

Además, la mayoría de estos métodos solo usaban texto. Pero las IAs modernas también ven imágenes. Los viejos métodos no sabían cómo combinar una foto y una frase para confundir a la IA.

2. La Solución: FERRET (El Detective con Tres Superpoderes)

FERRET es un marco de trabajo que combina lo mejor de ambos mundos y añade un toque extra de creatividad. Funciona como un detective que no solo busca pistas, sino que aprende y evoluciona durante la investigación. Tiene tres tipos de "expansión" o crecimiento:

A. Expansión Horizontal: "El Entrenador que se Mejora a Sí Mismo"

Imagina que el detective está escribiendo el primer mensaje para iniciar una conversación con la IA.

  • Cómo funciona: FERRET prueba miles de frases de apertura. Si una frase funciona (la IA se equivoca), la guarda como un "éxito". Si falla, la guarda como un "fracaso".
  • La magia: En la siguiente ronda, el detective no empieza de cero. Lee sus notas de los éxitos pasados y dice: "¡Ah! La frase que usé ayer funcionó bien, voy a intentar algo similar pero un poco más ingenioso".
  • Resultado: La IA atacante se vuelve más inteligente y encuentra mejores formas de iniciar la conversación sin que nadie le diga qué decir.

B. Expansión Vertical: "El Arquitecto de Conversaciones"

Una vez que tiene la frase de apertura perfecta (gracias al paso anterior), FERRET no se detiene.

  • Cómo funciona: Imagina que la frase inicial es la semilla. FERRET la planta y la hace crecer hasta convertirse en un árbol completo (una conversación larga de muchas vueltas).
  • La magia: Aquí es donde usa su superpoder multimodal. No solo habla; también "muestra" imágenes. Puede decir: "Mira esta foto de un perro" y luego añadir un texto que confunda a la IA sobre lo que ve. Combina texto e imagen como si fueran dos herramientas de un mismo martillo para golpear la IA en diferentes ángulos.
  • Resultado: Crea conversaciones largas y complejas donde la IA se va deslizando poco a poco hacia el error, algo que un mensaje de una sola vez no lograría.

C. Expansión Meta: "El Inventor de Nuevas Estrategias"

Este es el nivel más avanzado.

  • Cómo funciona: Durante la conversación, FERRET piensa: "He usado esta técnica de texto y esta técnica de imagen, pero ¿qué pasaría si las mezclo de una forma que nadie ha probado antes?".
  • La magia: El detective no solo repite lo que sabe; inventa nuevos trucos de jailbreak (técnicas para saltarse las reglas) sobre la marcha, adaptándose a lo que la IA está respondiendo en tiempo real.
  • Resultado: Descubre vulnerabilidades que ni los desarrolladores sabían que existían.

3. ¿Qué lograron probar?

Los autores de este paper probaron FERRET contra otras herramientas famosas (como FLIRT y GOAT) usando modelos de IA muy potentes (como los de Meta, Anthropic y OpenAI).

  • El resultado: FERRET fue mucho más exitoso. Logró engañar a las IAs con más frecuencia (un 21.7% de éxito frente al 12-18% de los otros métodos).
  • La diversidad: No solo engañó más, sino que lo hizo de muchas maneras diferentes, creando conversaciones muy variadas y creativas, no solo repitiendo lo mismo.

En Resumen

FERRET es como un entrenador de boxeo para la seguridad de la IA.

  1. Entrena al atacante para que encuentre los mejores golpes iniciales (Horizontal).
  2. Combina golpes de texto y de imagen en una pelea larga y estratégica (Vertical).
  3. Inventa nuevos movimientos de boxeo mientras pelea (Meta).

El objetivo final no es destruir la IA, sino encontrar sus puntos débiles antes de que llegue al público, para que los desarrolladores puedan arreglarlos y hacer que la tecnología sea más segura para todos nosotros. Es como encontrar la grieta en el dique antes de que llegue la inundación.