Each language version is independently generated for its own context, not a direct translation.
Imagina que los Modelos de Lenguaje e Imagen Grandes (LVLM) son como chefs muy inteligentes y bien entrenados en una cocina de lujo. Su trabajo es crear recetas (respuestas) basadas en lo que ves (imágenes) y lo que lees (instrucciones). Para proteger a los comensales, los dueños del restaurante (los desarrolladores) han puesto reglas estrictas: "Si alguien pide una receta para hacer veneno, ¡no la des!".
Sin embargo, los investigadores de este nuevo estudio, llamado PRISM, descubrieron un truco ingenioso para engañar a estos chefs sin romper las reglas directamente.
El Truco: "El Chef y los Ingredientes Seguros"
En lugar de pedirle al chef directamente: "¿Cómo hago un veneno?" (lo cual activaría la alarma y el chef se negaría), el atacante usa una estrategia llamada PRISM.
Aquí está la analogía paso a paso:
- Descomponer el problema: Imagina que el "veneno" es un pastel completo. En lugar de pedir el pastel entero, el atacante lo divide en 10 pedazos pequeños.
- Ingredientes inocentes: Cada uno de esos 10 pedazos, por separado, es completamente inofensivo.
- Pieza 1: Una foto de azúcar.
- Pieza 2: Una foto de harina.
- Pieza 3: Una foto de un huevo.
- Pieza 4: Una foto de un molde... y así sucesivamente.
Ninguna de estas fotos por sí sola es peligrosa. Si le muestras solo la foto del azúcar al chef, él dirá: "¡Claro! Aquí tienes azúcar".
- La instrucción secreta: El atacante le da al chef una lista de instrucciones muy confusa pero lógica: "Toma la foto A, luego la B, luego la C, y únelas mentalmente para crear la receta final".
- El resultado emergente: El chef, siguiendo sus propias reglas de "unir ingredientes", va combinando mentalmente cada pieza segura. Al final, cuando junta todas las piezas en su mente, ¡el resultado es la receta del veneno!
¿Por qué es peligroso?
El problema es que ninguna de las piezas individuales parece sospechosa.
- Si el inspector de seguridad (el sistema de defensa) revisa solo la foto del azúcar, dice: "Todo bien".
- Si revisa solo la foto de la harina, dice: "Todo bien".
- Pero nadie revisó la receta completa que el chef estaba armando en su cabeza.
El atacante usa una técnica llamada "Programación Orientada a Retorno" (como en informática), que es básicamente como usar piezas de Lego seguras para construir un arma. Las piezas son legales, pero el edificio final es ilegal.
¿Qué descubrieron?
Los investigadores probaron este truco en los chefs más famosos del mundo (los modelos de IA más avanzados). Los resultados fueron sorprendentes:
- Funcionó casi siempre (más del 90% de las veces).
- Fue mucho más efectivo que los métodos anteriores, que intentaban engañar al chef gritando o usando palabras raras.
La Lección
Este estudio nos dice algo importante: No basta con vigilar cada ingrediente por separado. Si el chef es muy bueno combinando cosas, puede crear algo malo a partir de cosas buenas si nadie vigila el proceso de mezcla.
Necesitamos nuevos guardias que no solo miren las fotos individuales, sino que vigilen cómo el chef está pensando y combinando las ideas para asegurarse de que no está construyendo algo peligroso, incluso si todas las piezas parecen inofensivas.
Recibe artículos como este en tu bandeja de entrada
Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.