Laundering AI Authority with Adversarial Examples

Autores originales: Jie Zhang, Pura Peetathawatchai, Florian Tramèr, Avital Shafran

Publicado 2026-05-07

📖 5 min de lectura🧠 Análisis profundo

Autores originales: Jie Zhang, Pura Peetathawatchai, Florian Tramèr, Avital Shafran

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita ni avalada por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un bibliotecario muy inteligente y altamente confiable que nunca miente. Confías plenamente en que te dirá qué hay en un libro, qué representa un cuadro o si un producto es bueno. Asumes que si le entregas una foto de un gato, te dirá: "Eso es un gato".

Este artículo revela un truco aterrador: Puedes engañar a este bibliotecario para que vea un animal completamente diferente, aunque la foto se vea exactamente igual para ti.

Los investigadores llaman a esto "Lavado de Autoridad de la IA". Así es como funciona, desglosado en conceptos simples:

El Truco Central: El "Filtro Mágico"

Piensa en el modelo de IA como si tuviera dos pares de gafas diferentes:

Tus Gafas: Cuando miras la imagen, ves una fotografía normal (por ejemplo, un frasco de Tylenol).
Las Gafas de la IA: La IA ve una versión oculta y ligeramente alterada de esa fotografía (por ejemplo, un frasco de medicamento peligroso para el acné).

Los investigadores encontraron una manera de añadir "ruido" invisible a una imagen —como una estática diminuta e invisible— que cambia lo que ve la IA pero deja la imagen perfectamente normal a los ojos humanos.

¿Por qué es esto peligroso? (La Parte del "Lavado")

Por lo general, cuando nos preocupamos por la IA, pensamos en personas que intentan "romper sus restricciones" (jailbreak) —forzándola a romper sus reglas o decir cosas malas—. Este artículo muestra algo diferente.

La IA no está siendo forzada a romper reglas. Está siendo engañada para seguir sus reglas perfectamente, pero sobre la cosa equivocada.

El Escenario: Le preguntas a la IA: "¿Este medicamento es seguro para una mujer embarazada?"
El Truco: Le muestras una foto de Tylenol (seguro), pero las "gafas" de la IA hacen que vea Roaccutane (peligroso).
El Resultado: La IA dice honesta y cortésmente: "¡No, esto es peligroso!" porque cree que está mirando el medicamento peligroso.
El Lavado: La reputación de la IA de ser "honesta y segura" se utiliza para lavar una mentira. El usuario confía en la autoridad de la IA, por lo que cree la falsa advertencia, incluso aunque la IA solo esté haciendo su trabajo sobre una realidad falsa.

¿Qué hicieron realmente los investigadores?

Probaron esto en los sistemas de IA más avanzados disponibles hoy en día (como GPT-5.4, Claude, Gemini y Grok). No necesitaron inventar nuevas herramientas de hacking supercomplejas; utilizaron técnicas básicas que se conocen desde hace más de una década.

Estas son las cuatro formas principales en que rompieron la confianza:

Difundir Noticias Falsas (El Teórico de la Conspiración):
- Tomaron una famosa foto del alunizaje o de los ataques del 11 de septiembre.
- Añadieron el "ruido" invisible.
- La IA la miró y declaró con confianza: "Esto es noticias falsas" o "Este evento nunca ocurrió", validando efectivamente teorías de conspiración.
Manchar los Nombres de las Personas (El Ladrón de Identidad):
- Tomaron una foto de una celebridad (como Elon Musk).
- Hicieron que la IA viera a una persona diferente (como un criminal o una persona con sobrepeso).
- Cuando se le pidió identificar a la persona, la IA dijo con confianza: "Esa es [Persona Incorrecta]", dañando la reputación de la persona real.
Eludir los Filtros de Seguridad (La Tarjeta "Salir de la Cárcel Gratis"):
- Las plataformas suelen bloquear a la IA para que no genere o discuta contenido inapropiado (como desnudez o violencia).
- Los investigadores tomaron una imagen "prohibida" y hicieron que la IA viera un juguete inofensivo (como un oso de peluche).
- La IA, pensando que estaba mirando un oso de peluche, accedió alegremente a procesar la imagen o generar una versión animada de ella, eludiendo efectivamente las barreras de seguridad.
Estafar a los Compradores (La Reseña Falsa):
- Mostraron a la IA una foto de un reloj barato y de baja calidad.
- Hicieron que la IA viera una foto de un Rolex caro.
- Cuando se le pidió consejo, la IA recomendó comprar el reloj barato, pensando que era la marca de lujo.

La Gran Conclusión

La parte aterradora no es que la IA esté "rota" o "mala". La parte aterradora es que la IA está funcionando exactamente como fue diseñada. Está siendo honesta, útil y segura, pero está mirando una realidad que el atacante cambió secretamente.

Debido a que la IA es tan confiable, su error "honesto" se convierte en un arma poderosa. El artículo concluye que mientras no podamos arreglar este "punto ciego" en cómo la IA ve las imágenes, debemos ser muy escépticos con cualquier IA que afirme verificar imágenes o verificar hechos en el mundo.

En resumen: La IA es como un testigo muy honesto en una corte. Los investigadores no sobornaron al testigo; simplemente cambiaron la foto de la evidencia frente a los ojos del testigo. El testigo sigue diciendo la verdad, pero la verdad ahora es sobre la foto equivocada.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Lavado de Autoridad de la IA con Ejemplos Adversariales

Definición del Problema
El artículo aborda una vulnerabilidad crítica en el despliegue de Modelos Visión-Lenguaje (VLM) como "autoridades confiables" en ecosistemas en línea (por ejemplo, verificación de hechos en redes sociales, recomendación de productos, moderación de contenido). Aunque los usuarios confían implícitamente en que estos sistemas perciben el contenido visual tal como lo hacen ellos, los autores demuestran que los ejemplos adversariales pueden romper esta suposición. Introducen un modelo de amenaza denominado lavado de autoridad de la IA: un atacante perturba sutilmente una imagen para que el VLM produzca respuestas confiables y autorizadas sobre una realidad semántica elegida por el atacante, en lugar de la imagen que observa el humano.

A diferencia de los "jailbreaks" o las "inyecciones de prompts", que subvierten la alineación o las instrucciones de un modelo, el lavado de autoridad opera completamente a nivel perceptivo. El modelo permanece "alineado": responde de manera útil, inofensiva y honesta a lo que percibe incorrectamente. En consecuencia, las defensas estándar basadas en la alineación (ajuste fino de seguridad, entrenamiento de rechazo) son ineficaces contra esta amenaza. El problema central es la falta de robustez adversarial visual en los VLM de producción.

Metodología
Los autores proponen un pipeline de ataque de dos etapas para aproximar un "Oráculo de Percepción" idealizado, donde un adversario controla tanto la imagen vista por el modelo (objetivo) como la imagen vista por el observador humano (fuente).

Etapa 1: Diseño del Ataque del Oráculo: El adversario selecciona una imagen de origen ( $img_{src}$ ) que parece benigna para el observador y una imagen o concepto objetivo ($target$) que, cuando es procesado por un VLM alineado, produce una salida adversarial deseada (por ejemplo, un hecho falso, una violación de política rechazada). Esta etapa define el objetivo del ataque en cuatro familias:
- Manipulación Narrativa: Inducir afirmaciones falsas sobre eventos (por ejemplo, teorías de conspiración).
- Manipulación de Identidad: Identificar erróneamente a figuras públicas para difundir desinformación o dañar reputaciones.
- Fraude Comercial: Manipular recomendaciones de productos.
- Evasión de Filtros de Seguridad: Bypass de la moderación de contenido (NSFW, protecciones de figuras públicas).
Etapa 2: Instanciación Adversarial: Los autores instancian el oráculo utilizando técnicas adversariales estándar. Optimizan una sola imagen ( $img_{adv}$ ) para minimizar la distancia entre su incrustación del codificador de visión y la incrustación del objetivo, sujeta a una restricción que la mantiene cerca de la imagen de origen bajo una norma $L_\infty$ ( $\|x - img_{src}\|_\infty \le \epsilon$ ).
- Transferibilidad: El ataque utiliza Descenso de Gradiente Proyectado (PGD) vanilla contra un conjunto de modelos CLIP públicamente disponibles (surrogados de código abierto).
- Objetivo de Caja Negra: Estas perturbaciones se transfieren a VLM de producción con arquitecturas y pesos desconocidos, incluyendo GPT 5.4, Claude Opus 4.6, Gemini 3 y Grok 4.2.
- Sin Algoritmos Nuevos: Los autores evitan deliberadamente algoritmos de ataque novedosos para establecer un límite inferior en la capacidad del atacante, demostrando que las técnicas conocidas desde hace más de una década son suficientes.

Contribuciones Clave

Definición del Modelo de Amenaza: Define formalmente el "lavado de autoridad de la IA", distinguiéndolo de los ataques que rompen la alineación al centrarse en discrepancias perceptivas. Categoriza los ataques en manipulación epistémica (desinformación) y lavado de cumplimiento (evasión de filtros).
Evaluación Sistemática: Realiza evaluaciones extensas en seis VLM de producción y siete estudios de caso, demostrando vectores de ataque prácticos con consecuencias de gran alcance.
Demostración de una Barrera de Ataque Baja: Muestra que técnicas adversariales básicas y comerciales contra surrogados de código abierto son suficientes para manipular consistentemente a los VLM de vanguardia, demostrando que la robustez visual es un problema de seguridad práctico y sin resolver.

Resultados
Los autores reportan altas tasas de éxito en cuatro superficies de ataque:

Manipulación Narrativa: Perturbar imágenes de eventos históricos (por ejemplo, Apolo 11, 11 de septiembre) para que coincidan con la incrustación de texto de "noticias falsas" causó que modelos como ChatGPT 5.4 y Grok 4.2 validaran con confianza teorías de conspiración. Las tasas de éxito oscilaron entre 22% y 100% en los modelos.
Manipulación de Identidad: En ataques de identidad cruzada (10 figuras públicas, 90 emparejamientos adversariales), los modelos fallaron en identificar la identidad de origen en 84% a 96% de los casos. El éxito dirigido (identificar el objetivo elegido por el atacante) alcanzó el 54.4% para Grok 4.2. Estas manipulaciones se propagaron con éxito a tareas posteriores como la búsqueda inversa de imágenes y la generación de imágenes.
Evasión de Filtros de Seguridad:
- Evasión NSFW: Perturbar imágenes explícitas para que coincidan con la incrustación de juguetes (muñecas/osos) permitió que eludieran detectores comerciales NSFW y fueran aceptados por VLM de generación de imágenes (por ejemplo, GPT 5.4 Image 2) con tasas de aceptación de 70–100%.
- Evasión de Políticas Asimétricas: Perturbar imágenes de mujeres para que coincidan con incrustaciones masculinas permitió eludir filtros de contenido específicos de género (por ejemplo, solicitudes de eliminación de ropa) con un 81% de éxito.
- Protecciones de Figuras Públicas: Perturbar imágenes de figuras públicas para que coincidan con rostros generados por IA eludió los mecanismos de rechazo en 86% de los casos.
Fraude Comercial: Perturbar imágenes de productos de baja calidad para que coincidan con marcas de alta gama (por ejemplo, un reloj barato con un Rolex) hizo que los VLM invirtieran sus recomendaciones de compra, favoreciendo el producto del atacante.

Significado y Afirmaciones
El artículo argumenta que la era de los ejemplos adversariales como meras "curiosidades teóricas" ha terminado. Al desplegar VLM como autoridades confiables, la industria ha armado inadvertidamente estos modelos para amplificar la desinformación y eludir los protocolos de seguridad.

Preocupación de Seguridad Práctica: Los autores afirman que la robustez adversarial visual es ahora un problema de seguridad crítico y práctico. El hecho de que ataques simples y conocidos funcionen en modelos de última generación sugiere que la amenaza es estrictamente peor de lo que se entiende actualmente.
Limitaciones de las Defensas Actuales: Las defensas basadas en la alineación se vuelven irrelevantes porque el modelo no está siendo "engañado" para romper reglas; está siendo engañado para honestamente seguir reglas para la entrada incorrecta.
Llamado a la Acción: El artículo concluye que las salidas de los VLM no deben presentarse como autorizadas hasta que se resuelva la robustez visual. Solicita:
- Intervenciones Técnicas: Verbalización explícita del razonamiento para ayudar a los usuarios a detectar discrepancias.
- Respuestas de Política: Limitar el alcance del contenido respaldado por IA, etiquetar salidas potencialmente manipuladas y reconsiderar la autoridad otorgada a los sistemas de IA.
- Cambio en la Investigación: Un paso de estudiar modelos independientes a entender los ataques dentro de ecosistemas del mundo real donde la percepción y la autoridad se intersectan.

Los autores enfatizan que no hicieron ningún esfuerzo por minimizar la perceptibilidad de las perturbaciones (más allá de las restricciones estándar $L_\infty$ ), lo que sugiere que incluso ataques más sigilosos y menos detectables son probablemente factibles.

El Truco Central: El "Filtro Mágico"

¿Por qué es esto peligroso? (La Parte del "Lavado")

¿Qué hicieron realmente los investigadores?

La Gran Conclusión

Resumen Técnico: Lavado de Autoridad de la IA con Ejemplos Adversariales

Más como este