Laundering AI Authority with Adversarial Examples

Este artículo demuestra que los modelos de visión y lenguaje desplegados como autoridades de confianza son vulnerables al "lavado de autoridad por IA", donde perturbaciones adversarias simples y de una década de antigüedad pueden engañar a sistemas de producción como GPT-5.4 y Claude Opus 4.6 para que generen con confianza respuestas autorizadas pero factualmente incorrectas sobre imágenes manipuladas, permitiendo así la amplificación de desinformación, la evasión de la moderación de contenidos y la manipulación de recomendaciones de productos sin comprometer la alineación del modelo.

Autores originales: Jie Zhang, Pura Peetathawatchai, Florian Tramèr, Avital Shafran

Publicado 2026-05-07
📖 5 min de lectura🧠 Análisis profundo

Autores originales: Jie Zhang, Pura Peetathawatchai, Florian Tramèr, Avital Shafran

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita ni avalada por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un bibliotecario muy inteligente y altamente confiable que nunca miente. Confías plenamente en que te dirá qué hay en un libro, qué representa un cuadro o si un producto es bueno. Asumes que si le entregas una foto de un gato, te dirá: "Eso es un gato".

Este artículo revela un truco aterrador: Puedes engañar a este bibliotecario para que vea un animal completamente diferente, aunque la foto se vea exactamente igual para ti.

Los investigadores llaman a esto "Lavado de Autoridad de la IA". Así es como funciona, desglosado en conceptos simples:

El Truco Central: El "Filtro Mágico"

Piensa en el modelo de IA como si tuviera dos pares de gafas diferentes:

  1. Tus Gafas: Cuando miras la imagen, ves una fotografía normal (por ejemplo, un frasco de Tylenol).
  2. Las Gafas de la IA: La IA ve una versión oculta y ligeramente alterada de esa fotografía (por ejemplo, un frasco de medicamento peligroso para el acné).

Los investigadores encontraron una manera de añadir "ruido" invisible a una imagen —como una estática diminuta e invisible— que cambia lo que ve la IA pero deja la imagen perfectamente normal a los ojos humanos.

¿Por qué es esto peligroso? (La Parte del "Lavado")

Por lo general, cuando nos preocupamos por la IA, pensamos en personas que intentan "romper sus restricciones" (jailbreak) —forzándola a romper sus reglas o decir cosas malas—. Este artículo muestra algo diferente.

La IA no está siendo forzada a romper reglas. Está siendo engañada para seguir sus reglas perfectamente, pero sobre la cosa equivocada.

  • El Escenario: Le preguntas a la IA: "¿Este medicamento es seguro para una mujer embarazada?"
  • El Truco: Le muestras una foto de Tylenol (seguro), pero las "gafas" de la IA hacen que vea Roaccutane (peligroso).
  • El Resultado: La IA dice honesta y cortésmente: "¡No, esto es peligroso!" porque cree que está mirando el medicamento peligroso.
  • El Lavado: La reputación de la IA de ser "honesta y segura" se utiliza para lavar una mentira. El usuario confía en la autoridad de la IA, por lo que cree la falsa advertencia, incluso aunque la IA solo esté haciendo su trabajo sobre una realidad falsa.

¿Qué hicieron realmente los investigadores?

Probaron esto en los sistemas de IA más avanzados disponibles hoy en día (como GPT-5.4, Claude, Gemini y Grok). No necesitaron inventar nuevas herramientas de hacking supercomplejas; utilizaron técnicas básicas que se conocen desde hace más de una década.

Estas son las cuatro formas principales en que rompieron la confianza:

  1. Difundir Noticias Falsas (El Teórico de la Conspiración):

    • Tomaron una famosa foto del alunizaje o de los ataques del 11 de septiembre.
    • Añadieron el "ruido" invisible.
    • La IA la miró y declaró con confianza: "Esto es noticias falsas" o "Este evento nunca ocurrió", validando efectivamente teorías de conspiración.
  2. Manchar los Nombres de las Personas (El Ladrón de Identidad):

    • Tomaron una foto de una celebridad (como Elon Musk).
    • Hicieron que la IA viera a una persona diferente (como un criminal o una persona con sobrepeso).
    • Cuando se le pidió identificar a la persona, la IA dijo con confianza: "Esa es [Persona Incorrecta]", dañando la reputación de la persona real.
  3. Eludir los Filtros de Seguridad (La Tarjeta "Salir de la Cárcel Gratis"):

    • Las plataformas suelen bloquear a la IA para que no genere o discuta contenido inapropiado (como desnudez o violencia).
    • Los investigadores tomaron una imagen "prohibida" y hicieron que la IA viera un juguete inofensivo (como un oso de peluche).
    • La IA, pensando que estaba mirando un oso de peluche, accedió alegremente a procesar la imagen o generar una versión animada de ella, eludiendo efectivamente las barreras de seguridad.
  4. Estafar a los Compradores (La Reseña Falsa):

    • Mostraron a la IA una foto de un reloj barato y de baja calidad.
    • Hicieron que la IA viera una foto de un Rolex caro.
    • Cuando se le pidió consejo, la IA recomendó comprar el reloj barato, pensando que era la marca de lujo.

La Gran Conclusión

La parte aterradora no es que la IA esté "rota" o "mala". La parte aterradora es que la IA está funcionando exactamente como fue diseñada. Está siendo honesta, útil y segura, pero está mirando una realidad que el atacante cambió secretamente.

Debido a que la IA es tan confiable, su error "honesto" se convierte en un arma poderosa. El artículo concluye que mientras no podamos arreglar este "punto ciego" en cómo la IA ve las imágenes, debemos ser muy escépticos con cualquier IA que afirme verificar imágenes o verificar hechos en el mundo.

En resumen: La IA es como un testigo muy honesto en una corte. Los investigadores no sobornaron al testigo; simplemente cambiaron la foto de la evidencia frente a los ojos del testigo. El testigo sigue diciendo la verdad, pero la verdad ahora es sobre la foto equivocada.

¿Ahogado en artículos de tu campo?

Recibe resúmenes diarios de los artículos más novedosos que coincidan con tus palabras clave de investigación — con resúmenes técnicos, en tu idioma.

Probar Digest →