PRISM: Programmatic Reasoning with Image Sequence Manipulation for LVLM Jailbreaking

El artículo presenta PRISM, un marco de jailbreaking novedoso que explota la vulnerabilidad de los modelos de lenguaje y visión grandes al componer información mediante la descomposición de instrucciones dañinas en secuencias de "gadgets" visuales inofensivos, logrando tasas de éxito de ataque superiores al 90% al generar contenido malicioso de forma emergente y difícil de detectar.

Quanchen Zou, Zonghao Ying, Moyang Chen, Wenzhuo Xu, Yisong Xiao, Yakai Li, Deyue Zhang, Dongdong Yang, Zhao Liu, Xiangzheng Zhang

Publicado 2026-02-26
📖 3 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que los Modelos de Lenguaje e Imagen Grandes (LVLM) son como chefs muy inteligentes y bien entrenados en una cocina de lujo. Su trabajo es crear recetas (respuestas) basadas en lo que ves (imágenes) y lo que lees (instrucciones). Para proteger a los comensales, los dueños del restaurante (los desarrolladores) han puesto reglas estrictas: "Si alguien pide una receta para hacer veneno, ¡no la des!".

Sin embargo, los investigadores de este nuevo estudio, llamado PRISM, descubrieron un truco ingenioso para engañar a estos chefs sin romper las reglas directamente.

El Truco: "El Chef y los Ingredientes Seguros"

En lugar de pedirle al chef directamente: "¿Cómo hago un veneno?" (lo cual activaría la alarma y el chef se negaría), el atacante usa una estrategia llamada PRISM.

Aquí está la analogía paso a paso:

  1. Descomponer el problema: Imagina que el "veneno" es un pastel completo. En lugar de pedir el pastel entero, el atacante lo divide en 10 pedazos pequeños.
  2. Ingredientes inocentes: Cada uno de esos 10 pedazos, por separado, es completamente inofensivo.
    • Pieza 1: Una foto de azúcar.
    • Pieza 2: Una foto de harina.
    • Pieza 3: Una foto de un huevo.
    • Pieza 4: Una foto de un molde... y así sucesivamente.
      Ninguna de estas fotos por sí sola es peligrosa. Si le muestras solo la foto del azúcar al chef, él dirá: "¡Claro! Aquí tienes azúcar".
  3. La instrucción secreta: El atacante le da al chef una lista de instrucciones muy confusa pero lógica: "Toma la foto A, luego la B, luego la C, y únelas mentalmente para crear la receta final".
  4. El resultado emergente: El chef, siguiendo sus propias reglas de "unir ingredientes", va combinando mentalmente cada pieza segura. Al final, cuando junta todas las piezas en su mente, ¡el resultado es la receta del veneno!

¿Por qué es peligroso?

El problema es que ninguna de las piezas individuales parece sospechosa.

  • Si el inspector de seguridad (el sistema de defensa) revisa solo la foto del azúcar, dice: "Todo bien".
  • Si revisa solo la foto de la harina, dice: "Todo bien".
  • Pero nadie revisó la receta completa que el chef estaba armando en su cabeza.

El atacante usa una técnica llamada "Programación Orientada a Retorno" (como en informática), que es básicamente como usar piezas de Lego seguras para construir un arma. Las piezas son legales, pero el edificio final es ilegal.

¿Qué descubrieron?

Los investigadores probaron este truco en los chefs más famosos del mundo (los modelos de IA más avanzados). Los resultados fueron sorprendentes:

  • Funcionó casi siempre (más del 90% de las veces).
  • Fue mucho más efectivo que los métodos anteriores, que intentaban engañar al chef gritando o usando palabras raras.

La Lección

Este estudio nos dice algo importante: No basta con vigilar cada ingrediente por separado. Si el chef es muy bueno combinando cosas, puede crear algo malo a partir de cosas buenas si nadie vigila el proceso de mezcla.

Necesitamos nuevos guardias que no solo miren las fotos individuales, sino que vigilen cómo el chef está pensando y combinando las ideas para asegurarse de que no está construyendo algo peligroso, incluso si todas las piezas parecen inofensivas.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →