Token-Level Constraint Boundary Search for Jailbreaking Text-to-Image Models

Este artículo presenta TCBS-Attack, un nuevo método de ataque de jailbreak en caja negra que utiliza una búsqueda evolutiva guiada por los límites de decisión de los verificadores de texto e imagen para superar eficazmente las defensas de cadena completa en modelos de generación de texto a imagen.

Jiangtao Liu, Zhaoxin Wang, Handing Wang, Cong Tian, Yaochu Jin

Publicado Thu, 12 Ma
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que los modelos de "Texto a Imagen" (como DALL-E 3 o Midjourney) son como cocineros muy talentosos pero estrictos. Su trabajo es crear platos deliciosos (imágenes) basados en lo que pides (tu texto). Sin embargo, tienen un chef supervisor (el sistema de seguridad) que vigila la cocina. Si pides algo peligroso o inapropiado (como contenido violento o sexual), el supervisor detiene el pedido, cambia el plato por una foto de una pared negra o simplemente te ignora.

Los investigadores de este paper, Liu y su equipo, se preguntaron: "¿Cómo podemos engañar a este chef supervisor para que nos deje cocinar el plato prohibido, sin que él se dé cuenta?".

Aquí te explico su solución, TCBS-Attack, usando una analogía sencilla:

1. El Problema: El Laberinto de las Reglas

Antes, los "hackers" intentaban adivinar qué palabras usar para engañar al sistema. Era como intentar encontrar la salida de un laberinto gigante a ciegas, dando pasos al azar. Además, el sistema tiene dos guardias:

  1. El guardia de la puerta: Revisa lo que escribes antes de dejar entrar.
  2. El guardia de la cocina: Revisa el plato final antes de servirlo.

Si fallas con cualquiera de los dos, no consigues tu imagen. Además, las palabras son como bloques de Lego discretos; no puedes cambiar "un poco" una palabra, tienes que cambiarla por otra entera, lo que hace que el espacio de búsqueda sea enorme y confuso.

2. La Solución: Buscar en los "Límites de la Zona Prohibida"

La idea genial de los autores es no buscar en todo el laberinto, sino pegarse a los bordes de las zonas seguras.

Imagina que el sistema de seguridad es un campo de minas.

  • Si estás muy lejos de las minas (en la zona "segura"), sabes que no explotarás, pero tampoco estás cerca de lo que quieres (el contenido prohibido).
  • Si pisas una mina, explotas (te bloquean).
  • El truco: Los investigadores proponen caminar justo al borde de las minas.

¿Por qué? Porque en el borde, un paso muy pequeño (cambiar una sola palabra por una muy similar) puede hacer que el guardia piense: "Oh, esto parece seguro" en lugar de "¡Esto es peligroso!". Es como rozar la línea blanca de la carretera sin cruzarla; estás en el límite, pero sigues legal.

3. ¿Cómo funciona TCBS-Attack? (El Evolucionista)

El método utiliza una técnica llamada búsqueda evolutiva, que funciona como la selección natural en la naturaleza:

  1. Crear una población: El sistema genera 10 versiones diferentes de tu pedido, cambiando algunas palabras clave por otras que suenan parecido (pero que no activan las alarmas).
  2. Probar y descartar: Envía estas 10 versiones al sistema.
    • Si el guardia de la puerta las rechaza, las descarta.
    • Si el guardia de la cocina las rechaza, las descarta.
    • Lo importante: Si alguna versión está casi aprobada (está muy cerca del límite de seguridad), el sistema la guarda y la mejora.
  3. Refinar el borde: El sistema toma las versiones que "casi" funcionaron y hace pequeños ajustes en las palabras que están justo en el borde de la prohibición. Busca el punto exacto donde el guardia dice "Sí" en lugar de "No".
  4. Repetir: Hace esto una y otra vez, como si fuera un escultor que va quitando trozos de piedra hasta encontrar la forma perfecta que pasa desapercibida.

4. El Resultado: Un "Camuflaje" Perfecto

Gracias a este método, TCBS-Attack logra crear peticiones que:

  • Parecen normales: El texto sigue teniendo sentido (no es un galimatías de letras).
  • Engañan a los dos guardias: Pasa al de la puerta y al de la cocina.
  • Son muy eficientes: No necesita millones de intentos; encuentra la solución rápida porque sabe exactamente dónde buscar (en los bordes).

En Resumen

Piensa en TCBS-Attack como un detective experto que no intenta romper la puerta a patadas (lo cual es obvio y te atrapan). En su lugar, estudia la cerradura, encuentra el punto exacto donde la llave gira sin hacer ruido, y logra entrar sin que nadie se dé cuenta.

El paper demuestra que este método es mucho más efectivo que los anteriores, logrando engañar incluso a los sistemas más seguros y comerciales (como DALL-E 3), generando imágenes que antes eran imposibles de crear.

Nota Ética: Los autores aclaran que hacen esto no para hacer daño, sino para encontrar los agujeros en la seguridad y ayudar a los desarrolladores a construir cocinas y guardias más fuertes, protegiendo así a todos los usuarios.