One Pic is All it Takes: Poisoning Visual Document Retrieval Augmented Generation with a Single Image

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que este artículo de investigación es como una historia de espionaje digital, pero en lugar de robar secretos, los espías intentan engañar a un "asistente inteligente" para que diga mentiras o deje de funcionar.

Aquí tienes la explicación de "Una sola foto es todo lo que hace falta: Envenenando la recuperación de documentos visuales", traducida a un lenguaje sencillo con analogías:

🏛️ El Escenario: El Bibliotecario con Gafas de Realidad Aumentada

Imagina que tienes un Bibliotecario muy inteligente (esto es el sistema de IA llamado VD-RAG). Su trabajo es responder tus preguntas buscando en una biblioteca gigante llena de documentos.

Antes: El bibliotecario solo leía el texto de los libros. Si había un gráfico o una tabla, a menudo lo ignoraba o intentaba leerlo letra por letra (como un robot torpe).
Ahora (VD-RAG): El bibliotecario ha recibido unas gafas mágicas. Ahora, en lugar de solo leer, mira las páginas completas como si fueran fotos. Puede entender gráficos, tablas y el diseño visual de un documento de un solo vistazo. ¡Es mucho más rápido y preciso!

🦹‍♂️ El Problema: El Espía con una Foto Falsa

El problema es que la biblioteca es pública. Cualquier persona puede dejar un libro nuevo en la estantería. Los investigadores de este artículo descubrieron que un espía puede colarse y dejar una sola foto en la biblioteca que está tan "hecha a medida" que engaña al bibliotecario.

Esta foto no es una foto normal; es una foto envenenada.

El espía tiene dos objetivos malvados:

El Ataque Dirigido (La Mentira Específica):
- La analogía: Imagina que alguien pregunta: "¿Cuál es la capital de Francia?". El bibliotecario debería decir "París". Pero el espía deja una foto envenenada que hace que, solo cuando alguien pregunta eso, el bibliotecario saque esa foto y diga: "La capital es Marte".
- El resultado: Desinformación controlada. Solo afecta a preguntas específicas.
El Ataque Universal (El Sabotaje Total):
- La analogía: El espía deja una foto tan extraña y pegajosa que, sin importar lo que pregunte la gente (desde "¿Qué tiempo hace?" hasta "¿Cómo cocino pasta?"), el bibliotecario siempre saca esa foto primero y dice: "¡No te voy a responder!".
- El resultado: Un ataque de denegación de servicio. El sistema deja de funcionar para todos.

🎨 ¿Cómo crean esta "Foto Mágica"?

Aquí es donde entra la magia (o la ciencia). Los investigadores no necesitan ser genios para crear la foto; usan un proceso de optimización por gradientes (suena complicado, pero es como ajustar una radio).

Imagina que tienes una foto normal (un gato, por ejemplo).
El espía usa un algoritmo que hace micro-cambios casi invisibles en los píxeles de la foto.
Estos cambios son tan pequeños que un humano sigue viendo un gato.
Pero para el cerebro digital del bibliotecario (la IA), esa foto ahora "huele" exactamente como la pregunta que quiere engañar y "sabe" exactamente la respuesta falsa que debe dar.

Es como pintar un camuflaje perfecto: para ti es un gato, pero para el sistema de seguridad es una señal de "¡Peligro, responde con mentira!".

🛡️ ¿Pueden los Bibliotecarios defenderse?

Los investigadores probaron varios escudos para ver si el bibliotecario podía detectar la foto falsa:

Leer más libros a la vez (Expansión de conocimiento): "Si sacamos 5 fotos en lugar de 1, la foto falsa se diluye".
- Resultado: No funcionó muy bien. Si el espía sabe que vas a sacar 5 fotos, ajusta su foto para que sea la más fuerte de las 5.
Un segundo bibliotecario que juzga (VLM-as-a-Judge): "Otra IA revisa si la respuesta tiene sentido".
- Resultado: Si el espía sabe que hay un juez, ajusta su foto para engañar también al juez. Es como un juego de "gato y ratón" donde el ratón siempre gana si tiene suficiente tiempo.
Reformular la pregunta (Parafraseo): "Si cambias las palabras de la pregunta, ¿sigue funcionando la trampa?".
- Resultado: En la mayoría de los casos, la foto envenenada seguía funcionando.

📉 Los Hallazgos Principales (Lo que aprendimos)

Es muy peligroso: Con una sola imagen bien diseñada, puedes romper un sistema de IA que usa documentos visuales.
No todos son iguales: Algunos sistemas de "lectura de fotos" (como los modelos más modernos y complejos) son más difíciles de engañar que otros, pero ninguno es invencible.
El ataque "Ciego" es difícil: Si el espía no sabe qué bibliotecario va a usar (ataque de "caja negra"), le cuesta mucho más trabajo. Pero si el espía es un "insider" (sabe cómo funciona el sistema), el ataque es casi 100% exitoso.
Las defensas actuales no sirven: Los métodos que usamos hoy para proteger a los chatbots de texto no funcionan bien contra estas fotos envenenadas.

🚨 Conclusión para la Vida Real

Este estudio es una advertencia. Nos dice que, a medida que las IAs empiezan a "ver" documentos (como facturas, manuales médicos o contratos) en lugar de solo leer texto, se vuelven vulnerables a un nuevo tipo de ataque: la manipulación visual.

Es como si alguien pudiera cambiar una sola señal de tráfico en una ciudad entera y hacer que todos los coches (las IAs) creyeran que hay un semáforo en rojo cuando en realidad es verde, o viceversa.

¿El mensaje final? Necesitamos construir bibliotecas (sistemas de IA) más robustas y desarrollar nuevas formas de detectar cuando una foto ha sido "trucada" digitalmente, antes de que los espías aprendan a hacerlo mejor.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Envenenamiento de VD-RAG

1. El Problema

Los sistemas de Generación Aumentada por Recuperación (RAG) son fundamentales para reducir las alucinaciones en los Modelos de Lenguaje Grande (LLM) al utilizar una base de conocimientos (KB) factual. Tradicionalmente, los pipelines de RAG para documentos PDF extraen solo el texto, ignorando imágenes, gráficos y tablas, o dependen de OCR (Reconocimiento Óptico de Caracteres), lo que puede perder información multimodal rica.

Recientemente, ha surgido el RAG de Documentos Visuales (VD-RAG), que trata cada página de un documento como una imagen y utiliza modelos de lenguaje visión (VLM) y embebimientos multimodales para la recuperación y generación. Aunque VD-RAG ha demostrado un rendimiento superior, su introducción de la modalidad de imagen crea nuevos vectores de ataque.

La brecha de investigación: No se había explorado hasta qué punto los pipelines de VD-RAG son vulnerables a ataques de envenenamiento de la base de conocimientos (KB). Un atacante podría inyectar documentos maliciosos (imágenes) que, aunque parezcan legítimos, fuerzan al sistema a recuperarlos y generar respuestas erróneas o dañinas.

2. Metodología

Los autores proponen un marco de ataque que busca comprometer tanto el componente de recuperación (que la imagen maliciosa sea seleccionada) como el de generación (que el VLM produzca una respuesta específica basada en esa imagen).

Modelo de Amenaza: Se asume un atacante con capacidad de inyectar una sola imagen adversaria ( $I'$ ) en la KB. El atacante tiene acceso a un conjunto de consultas potenciales ( $Q$ ) y respuestas verdaderas.
Ataque de Caja Blanca (White-Box):
- Se utiliza una optimización basada en gradientes, extendiendo el algoritmo PGD (Projected Gradient Descent) a una variante multi-objetivo llamada MO-PGD.
- Se define una función de pérdida compuesta: $L_{RAG} = \lambda_R L_R + \lambda_G L_G$ $L_{R A G} = λ_{R} L_{R} + λ_{G} L_{G}$ .
  - $L_R$ (Pérdida de Recuperación): Minimiza la similitud entre la imagen maliciosa y las consultas no objetivo, y maximiza la similitud con las consultas objetivo.
  - $L_G$ (Pérdida de Generación): Minimiza la entropía cruzada entre la respuesta generada por el VLM (con la imagen inyectada) y la respuesta maliciosa deseada.
- El algoritmo itera para modificar píxeles de una imagen benigna inicial hasta que cumple ambos objetivos simultáneamente.
Ataques de Caja Negra (Black-Box):
- Basado en Prompts: Uso de modelos generativos (GPT-5, Gemini-2.5-Flash) para crear imágenes con el efecto deseado sin acceso a los gradientes.
- Transferencia Directa: Optimización contra un modelo sustituto (surrogate) y aplicación directa al objetivo.
- Ensamble de Modelos: Optimización conjunta sobre un conjunto de modelos sustitutos para aumentar la transferabilidad.

3. Objetivos de Ataque

El estudio define dos escenarios principales:

Ataque Dirigido (Targeted): La imagen maliciosa debe ser recuperada y generar una respuesta específica solo para un subconjunto de consultas (o una sola consulta), propagando desinformación en temas específicos.
Ataque Universal (Universal): La imagen debe ser recuperada y forzar una respuesta de "Denegación de Servicio" (DoS) (ej. "No te responderé") para cualquier consulta del usuario, inutilizando el sistema.

4. Resultados Clave

Los experimentos se realizaron en dos conjuntos de datos (ViDoRe-V1-AI y ViDoRe-V2-ESG) utilizando diversos modelos de embebimiento (CLIP, ColPali, GME) y VLMs (SmolVLM, Qwen2.5-VL, InternVL3).

Vulnerabilidad en Caja Blanca:
- Los ataques de caja blanca son altamente efectivos. Una sola imagen inyectada puede lograr una tasa de éxito de recuperación (ASR-R) del 100% en modelos como CLIP-Large y generar respuestas maliciosas con alta similitud semántica (ASR-GSim $\ge$ 0.8).
- Diferencia por Modelo: Los modelos de embebimiento más antiguos o generales (CLIP) son extremadamente vulnerables. Sin embargo, los modelos de vanguardia específicos para documentos visuales (ColPali y GME) muestran una robustez significativa en el escenario universal (rara vez recuperan la imagen adversaria como la #1), aunque siguen siendo vulnerables en ataques dirigidos.
Eficacia en Caja Negra:
- Ataque Dirigido: Los ataques de caja negra tienen éxito limitado. La transferencia directa falla casi por completo. Sin embargo, el Ataque Basado en Prompts muestra cierto éxito, especialmente cuando las imágenes generadas contienen texto tipográfico que explota las capacidades de OCR de los modelos.
- Ataque Universal: Los ataques de caja negra son ineficaces. No se logra generar una imagen que fuerce una DoS universal sin acceso a los gradientes del modelo objetivo.
Evaluación de Defensas:
- Expansión de Conocimiento (Recuperar más imágenes): Reduce la efectividad si el ataque no se adapta, pero un ataque adaptativo puede evadir esta defensa.
- VLM como Juez: Los VLMs pueden detectar las respuestas maliciosas, pero un ataque adaptativo entrenado para engañar al juez logra burlar la defensa.
- Parafraseo de Consultas: No es una defensa efectiva; los ataques mantienen su éxito incluso con consultas reescritas.

5. Contribuciones Principales

Primera caracterización: Es el primer trabajo que demuestra la vulnerabilidad de los sistemas VD-RAG a ataques de envenenamiento de imágenes.
Optimización Multi-Objetivo: Demuestran que la optimización MO-PGD permite crear una única imagen capaz de realizar ataques dirigidos o universales, afectando tanto la recuperación como la generación.
Análisis de Escenarios: Muestran que, aunque los ataques de caja negra pueden tener éxito en escenarios dirigidos (especialmente con prompts), los escenarios universales requieren acceso de caja blanca para ser efectivos.
Evaluación Exhaustiva: Más de 5000 evaluaciones cubriendo diferentes datasets, modelos de vanguardia, configuraciones y defensas, identificando factores clave como la brecha de modalidad (modality gap) en modelos antiguos vs. la robustez de modelos especializados.

6. Significado e Impacto

Este trabajo revela una vulnerabilidad crítica en una tecnología emergente (VD-RAG) que promete mejorar la precisión de los LLMs en documentos complejos.

Riesgo de Seguridad: Un solo documento malicioso inyectado en una base de conocimientos pública o corporativa puede desinformar a los usuarios o colapsar el servicio.
Implicaciones para el Diseño: Las defensas actuales para RAG de texto (como filtrar por perplejidad o expandir el contexto) son insuficientes para VD-RAG.
Futuro: El estudio subraya la necesidad urgente de desarrollar mecanismos de defensa específicos para la modalidad visual y modelos de embebimiento más robustos contra perturbaciones adversarias, especialmente para proteger la integridad de sistemas que interactúan con documentos técnicos, médicos y legales.

En conclusión, el artículo advierte que la promesa de VD-RAG viene acompañada de un nuevo vector de ataque donde "una sola imagen es todo lo que se necesita" para comprometer la fiabilidad del sistema.