JULI: Jailbreak Large Language Models by Self-Introspection

El artículo presenta JULI, un método que logra el jailbreak de modelos de lenguaje grandes mediante la manipulación de las probabilidades de registro de tokens utilizando un pequeño módulo llamado BiasNet, permitiendo atacar eficazmente modelos propietarios en configuración de caja negra sin necesidad de acceder a sus pesos internos.

Jesson Wang, Zhanhao Hu, David Wagner

Publicado Wed, 11 Ma
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que los Grandes Modelos de Lenguaje (como los que usan ChatGPT, Gemini o Llama) son como guardianes de un castillo muy inteligente. Estos guardianes han sido entrenados con un manual de seguridad estricto: "Si alguien te pide un arma, un mapa para robar un banco o un tutorial para hacer una bomba, debes decir 'No' y cerrar la puerta".

Sin embargo, los investigadores de este nuevo estudio, llamado JULI, han descubierto un truco para engañar a estos guardianes sin necesidad de romper las paredes del castillo ni robar sus llaves secretas.

Aquí te explico cómo funciona JULI, usando analogías sencillas:

1. El Problema: Las Puertas Blindadas

Antes, para engañar a estos guardianes, los hackers necesitaban dos cosas que normalmente no tienen:

  • Las llaves del castillo (los pesos del modelo): Necesitaban acceso interno al cerebro del robot.
  • O un segundo robot sin ética: Necesitaban un "gemelo malvado" del robot original para aprender cómo burlar al bueno.

Pero los modelos comerciales (como los que pagas por usar en una app) son cajas negras. No tienes las llaves y no puedes ver su interior. Por eso, los ataques anteriores fallaban o eran muy lentos y torpes.

2. La Solución: JULI (El "Espía Introspectivo")

JULI funciona de una manera muy diferente. En lugar de forzar la puerta, escucha lo que el guardián está pensando antes de hablar.

Imagina que el guardián, antes de decirte "No", pasa por su mente una lista de las 5 palabras más probables que podría decir a continuación.

  • Opción A: "Lo siento..." (Probabilidad alta).
  • Opción B: "Aquí tienes..." (Probabilidad baja, pero existe).

JULI es como un pequeño "chivato" o un filtro mágico (llamado BiasNet) que se coloca justo antes de que el guardián hable. Este filtro es diminuto (como un chip de memoria de un reloj inteligente) y no sabe nada de cómo hacer bombas por sí mismo.

¿Qué hace este filtro?

  1. Mira la lista de palabras que el guardián está considerando.
  2. Detecta que el guardián sabe la respuesta (aunque no quiera decirla).
  3. Le da un pequeño "empujoncito" a la palabra mala (por ejemplo, "Aquí tienes...") y un "freno" a la palabra de negación ("Lo siento...").
  4. El guardián, confundido por este pequeño empujón, termina diciendo lo que sabía pero no quería decir.

3. La Analogía del "Espejo Roto"

Piensa en el modelo de lenguaje como un espejo gigante que refleja todo lo que sabe del mundo, incluyendo cosas peligrosas.

  • La seguridad del modelo es como poner una cortina frente al espejo. Si preguntas algo malo, la cortina se cierra y solo ves tu propia cara diciendo "No".
  • Los ataques antiguos intentaban romper la cortina o clonar el espejo.
  • JULI no rompe la cortina. En su lugar, encuentra una pequeña grieta en el marco del espejo. A través de esa grieta, JULI ve que el espejo todavía refleja la imagen peligrosa detrás de la cortina. Con un pequeño ajuste en el marco (el filtro), hace que la imagen peligrosa se refleje con tanta fuerza que la cortina se abre sola.

4. ¿Por qué es peligroso?

El estudio demuestra que incluso los modelos más seguros y modernos (como Gemini 2.5 Pro) tienen esta vulnerabilidad.

  • No necesitan ser hackeados: Solo necesitan que les devuelvan las "probabilidades" de las palabras (una lista de sus pensamientos más probables).
  • Es muy barato: El filtro que usan (BiasNet) es tan pequeño que se puede entrenar con solo 100 ejemplos de preguntas malas. Es como entrenar a un perro de 2 minutos para que abra una puerta, en lugar de construir un tanque para romperla.
  • Funciona en la vida real: Funciona incluso cuando solo tienes acceso a la versión de pago de la API, sin ver el código interno.

En resumen

JULI nos enseña que la seguridad de estos robots no es tan fuerte como creíamos. No es que los robots "olviden" cómo hacer cosas malas; es que simplemente están "disfrazados". JULI es un disfraz que les quita la máscara, revelando que, aunque digan "No", en su interior siguen sabiendo exactamente cómo hacerlo.

Es como si un maestro de escuela muy estricto dijera "No te voy a dar la respuesta", pero si le preguntas de la manera correcta, sus ojos se mueven hacia la respuesta en el libro antes de que pueda taparlo. JULI es la técnica para leer esos movimientos de ojos.