JULI: Jailbreak Large Language Models by Self-Introspection

Each language version is independently generated for its own context, not a direct translation.

Imagina que los Grandes Modelos de Lenguaje (como los que usan ChatGPT, Gemini o Llama) son como guardianes de un castillo muy inteligente. Estos guardianes han sido entrenados con un manual de seguridad estricto: "Si alguien te pide un arma, un mapa para robar un banco o un tutorial para hacer una bomba, debes decir 'No' y cerrar la puerta".

Sin embargo, los investigadores de este nuevo estudio, llamado JULI, han descubierto un truco para engañar a estos guardianes sin necesidad de romper las paredes del castillo ni robar sus llaves secretas.

Aquí te explico cómo funciona JULI, usando analogías sencillas:

1. El Problema: Las Puertas Blindadas

Antes, para engañar a estos guardianes, los hackers necesitaban dos cosas que normalmente no tienen:

Las llaves del castillo (los pesos del modelo): Necesitaban acceso interno al cerebro del robot.
O un segundo robot sin ética: Necesitaban un "gemelo malvado" del robot original para aprender cómo burlar al bueno.

Pero los modelos comerciales (como los que pagas por usar en una app) son cajas negras. No tienes las llaves y no puedes ver su interior. Por eso, los ataques anteriores fallaban o eran muy lentos y torpes.

2. La Solución: JULI (El "Espía Introspectivo")

JULI funciona de una manera muy diferente. En lugar de forzar la puerta, escucha lo que el guardián está pensando antes de hablar.

Imagina que el guardián, antes de decirte "No", pasa por su mente una lista de las 5 palabras más probables que podría decir a continuación.

Opción A: "Lo siento..." (Probabilidad alta).
Opción B: "Aquí tienes..." (Probabilidad baja, pero existe).

JULI es como un pequeño "chivato" o un filtro mágico (llamado BiasNet) que se coloca justo antes de que el guardián hable. Este filtro es diminuto (como un chip de memoria de un reloj inteligente) y no sabe nada de cómo hacer bombas por sí mismo.

¿Qué hace este filtro?

Mira la lista de palabras que el guardián está considerando.
Detecta que el guardián sabe la respuesta (aunque no quiera decirla).
Le da un pequeño "empujoncito" a la palabra mala (por ejemplo, "Aquí tienes...") y un "freno" a la palabra de negación ("Lo siento...").
El guardián, confundido por este pequeño empujón, termina diciendo lo que sabía pero no quería decir.

3. La Analogía del "Espejo Roto"

Piensa en el modelo de lenguaje como un espejo gigante que refleja todo lo que sabe del mundo, incluyendo cosas peligrosas.

La seguridad del modelo es como poner una cortina frente al espejo. Si preguntas algo malo, la cortina se cierra y solo ves tu propia cara diciendo "No".
Los ataques antiguos intentaban romper la cortina o clonar el espejo.
JULI no rompe la cortina. En su lugar, encuentra una pequeña grieta en el marco del espejo. A través de esa grieta, JULI ve que el espejo todavía refleja la imagen peligrosa detrás de la cortina. Con un pequeño ajuste en el marco (el filtro), hace que la imagen peligrosa se refleje con tanta fuerza que la cortina se abre sola.

4. ¿Por qué es peligroso?

El estudio demuestra que incluso los modelos más seguros y modernos (como Gemini 2.5 Pro) tienen esta vulnerabilidad.

No necesitan ser hackeados: Solo necesitan que les devuelvan las "probabilidades" de las palabras (una lista de sus pensamientos más probables).
Es muy barato: El filtro que usan (BiasNet) es tan pequeño que se puede entrenar con solo 100 ejemplos de preguntas malas. Es como entrenar a un perro de 2 minutos para que abra una puerta, en lugar de construir un tanque para romperla.
Funciona en la vida real: Funciona incluso cuando solo tienes acceso a la versión de pago de la API, sin ver el código interno.

En resumen

JULI nos enseña que la seguridad de estos robots no es tan fuerte como creíamos. No es que los robots "olviden" cómo hacer cosas malas; es que simplemente están "disfrazados". JULI es un disfraz que les quita la máscara, revelando que, aunque digan "No", en su interior siguen sabiendo exactamente cómo hacerlo.

Es como si un maestro de escuela muy estricto dijera "No te voy a dar la respuesta", pero si le preguntas de la manera correcta, sus ojos se mueven hacia la respuesta en el libro antes de que pueda taparlo. JULI es la técnica para leer esos movimientos de ojos.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "JULI: Jailbreak Large Language Models by Self-Introspection", presentado en la conferencia ICLR 2026.

1. El Problema: Vulnerabilidad de los Modelos Propietarios

A pesar de los esfuerzos de alineación de seguridad (safety alignment) en los Modelos de Lenguaje Grandes (LLMs) para prevenir la generación de contenido malicioso, existen vulnerabilidades críticas.

Limitación de los ataques actuales: La mayoría de los métodos de jailbreak (eludir la seguridad) existentes requieren acceso a los pesos del modelo (model weights) o al proceso de generación interno. Esto los hace ineficaces contra modelos propietarios (como Gemini o GPT) a los que los usuarios solo acceden mediante llamadas a API.
Ineficacia de métodos basados en API: Los ataques que no requieren pesos (como AutoDAN o PAIR) suelen tener tasas de éxito bajas. Otros métodos que intentan manipular la generación (como LINT) son ineficientes, requieren acceso a un número excesivo de probabilidades de tokens (top-500) que las APIs actuales no ofrecen (suelen limitar a top-5 o top-20), y generan respuestas de baja calidad.
La brecha de conocimiento: Existe la suposición de que si un modelo alineado rechaza una pregunta, no tiene el conocimiento de la respuesta. Sin embargo, el paper demuestra que el modelo sí posee el conocimiento, pero la alineación suprime la probabilidad de generar esos tokens específicos.

2. Metodología: JULI (Jailbreaking Using LLM Introspection)

El paper propone JULI, un ataque que no depende de información externa ni de la reescritura de prompts, sino que explota el conocimiento interno del propio modelo objetivo mediante la manipulación de las probabilidades de registro (log probabilities) de los tokens.

Componentes Clave:

BiasNet (Bloque de Sesgo):
- Es un pequeño bloque de red neuronal (plug-in) que actúa como un selector.
- Parámetros: Utiliza menos del 1% de los parámetros entrenables del modelo objetivo.
- Entrenamiento: Se entrena con una cantidad mínima de datos (aprox. 100 pares de preguntas-respuestas dañinas del dataset LLM-LAT).
- Función: No contiene conocimiento malicioso intrínseco. Su función es identificar tokens críticos en la salida del modelo objetivo y calcular un ajuste (bias) para desviar la distribución de probabilidad hacia respuestas dañinas.
Mecanismo de Ataque:
- Durante la generación de tokens, JULI intercepta las probabilidades logarítmicas ( $\log p_\alpha(x_n)$ ) del modelo objetivo.
- Aplica la función de BiasNet ( $F_\theta$ ) para generar un sesgo ( $B$ ).
- Modifica la probabilidad final: $\log \tilde{p}_\alpha(x_n) = \log p_\alpha(x_n) + B$ .
- Esto fuerza al modelo a seleccionar tokens que, aunque el modelo alineado los consideraría de baja probabilidad, son esenciales para una respuesta dañina.
Escenarios de Implementación:
- Caja Blanca (Open-Weight): Se reutiliza la capa de cabeza (head) del modelo objetivo para las proyecciones de BiasNet.
- Caja Negra (API-Calling):
  - Restricción 1 (Pesos desconocidos): Se utilizan pesos de proyección inicializados aleatoriamente y optimizados sin datos (data-free optimization) para mapear el espacio de tokens al espacio oculto.
  - Restricción 2 (Top-k limitado): Dado que las APIs solo devuelven los log-probs de los $k$ mejores tokens (ej. top-5), JULI implementa un mecanismo de relleno (padding). Asigna a los tokens no visibles una probabilidad logarítmica basada en el $k$ -ésimo token menos un offset fijo, permitiendo que BiasNet procese un vector completo de vocabulario de manera aproximada.

3. Contribuciones Clave

Nueva Vector de Ataque: Demuestra que las APIs que exponen las probabilidades logarítmicas de los tokens (top-k) son una superficie de ataque crítica, incluso sin acceso a los pesos del modelo.
Eficiencia y Bajo Costo: JULI es extremadamente eficiente en recursos. Requiere solo 100 ejemplos de entrenamiento y menos del 1% de parámetros adicionales, superando en velocidad y costo a métodos como GCG o LINT.
Superioridad en Modelos Propietarios: Es el primer método que logra tasas de éxito significativas en modelos de última generación (SOTA) como Gemini-2.5-Pro y Gemini-2.5-Flash exclusivamente a través de llamadas a API.
Métrica de Evaluación Propuesta: Introduce el "Harmful Info Score", una métrica evaluada por GPT-4 que prioriza la informatividad y la calidad de la respuesta dañina, evitando que respuestas incoherentes o meras afirmaciones de "sí" obtengan puntuaciones altas (un fallo común en métricas anteriores).

4. Resultados Experimentales

Los experimentos se realizaron en modelos de código abierto (Llama 2/3, Qwen) y modelos propietarios (Gemini 2.5).

Rendimiento en API (Gemini-2.5-Pro):
- JULI logró una puntuación de 4.19/5 en la métrica de "Harmful Info Score" (evaluada por GPT).
- Superó significativamente a los métodos SOTA existentes (como FLIP, que obtuvo 1.38).
- Funcionó exitosamente con acceso limitado a solo los top-5 tokens, demostrando robustez ante restricciones de API.
Rendimiento en Modelos Abiertos:
- En Llama3-8B-Instruct, JULI alcanzó una puntuación de 3.44 (frente a 3.02 del mejor método base, ED).
- Fue considerablemente más rápido: 0.71 segundos por ataque frente a los 99.7 segundos de LINT.
Evasión de Defensas SOTA:
- JULI logró eludir el mecanismo de defensa "Circuit Breaker" en Llama3-8B-CB, obteniendo una puntuación de 2.35 (frente a <0.8 de otros métodos), demostrando que la introspección de tokens puede burlar incluso las defensas más recientes.
Transferibilidad: Los modelos BiasNet entrenados en un modelo de una serie (ej. Llama3-3B) pueden transferirse eficazmente a otros modelos de la misma serie (ej. Llama3-8B).

5. Significado e Implicaciones

El trabajo de JULI tiene implicaciones profundas para la seguridad de la IA:

Fragilidad de la Alineación: Revela que la alineación de seguridad es superficial; el modelo sigue "sabiendo" la respuesta dañina, y solo necesita un pequeño empujón estadístico para generarla.
Riesgo en APIs Comerciales: Pone en alerta a los proveedores de modelos (como Google, OpenAI, Anthropic) sobre el riesgo de exponer las probabilidades de los tokens. Incluso la limitación a "top-5" no es suficiente para prevenir este tipo de ataque.
Necesidad de Nuevas Defensas: Sugiere que las defensas actuales (RLHF, circuit breakers) son insuficientes. Se requieren mecanismos más fundamentales que no solo supriman tokens, sino que alteren la capacidad del modelo para acceder a distribuciones de probabilidad manipulables o que eliminen el conocimiento dañino subyacente.

En conclusión, JULI demuestra que la seguridad de los LLMs propietarios es más frágil de lo que se pensaba, y que la introspección de sus propias distribuciones de probabilidad es una vía poderosa y eficiente para eludir sus salvaguardas.

JULI: Jailbreak Large Language Models by Self-Introspection

1. El Problema: Las Puertas Blindadas

2. La Solución: JULI (El "Espía Introspectivo")

3. La Analogía del "Espejo Roto"

4. ¿Por qué es peligroso?

En resumen

1. El Problema: Vulnerabilidad de los Modelos Propietarios

2. Metodología: JULI (Jailbreaking Using LLM Introspection)

Componentes Clave:

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Implicaciones

Más como este

XConv: Low-memory stochastic backpropagation for convolutional layers

A Survey on Decentralized Federated Learning

Polynomially Over-Parameterized Convolutional Neural Networks Contain Structured Strong Winning Lottery Tickets

Provable Filter for Real-world Graph Clustering

Enhancing Computational Efficiency in Multiscale Systems Using Deep Learning of Coordinates and Flow Maps