One Pic is All it Takes: Poisoning Visual Document Retrieval Augmented Generation with a Single Image

Each language version is independently generated for its own context, not a direct translation.

📸 Le Titre : "Une seule photo suffit pour tout gâcher"

Imaginez que vous avez un super assistant personnel (un grand modèle d'intelligence artificielle) qui connaît tout le monde. Mais pour ne pas inventer des mensonges (ce qu'on appelle les "hallucinations"), cet assistant consulte une immense bibliothèque de documents (des manuels, des rapports, des articles) avant de vous répondre. C'est ce qu'on appelle le RAG (Retrieval-Augmented Generation).

Jusqu'à récemment, cette bibliothèque était surtout faite de texte. Mais maintenant, pour être plus précis, on utilise des photos de documents (des captures d'écran de pages PDF). C'est le VD-RAG : l'assistant regarde les images directement pour comprendre les graphiques, les tableaux et le texte.

🕵️‍♂️ Le Problème : Le "Saboteur" dans la Bibliothèque

Les chercheurs de l'Institut Alan Turing et d'autres universités ont découvert une faille effrayante dans ce système.

Imaginez que votre bibliothèque est une grande salle remplie de milliers de livres. Un saboteur (un hacker) n'a pas besoin de voler tous les livres. Il lui suffit d'insérer une seule page truquée dans la pile.

Cette page est une image piégée. Elle a été modifiée de manière quasi invisible pour l'œil humain, mais elle agit comme un aimant toxique pour l'ordinateur.

🎯 Les Deux Façons de Saboter le Système

Les chercheurs ont prouvé qu'avec cette seule image, le saboteur peut faire deux choses terribles :

1. L'Attaque Ciblée : Le "Faux Témoin"

C'est comme si le saboteur voulait tromper tout le monde sur un sujet précis, par exemple : "Le vaccin X est dangereux".

Comment ça marche ? Le saboteur crée une image qui, lorsqu'on pose la question sur le vaccin, est forcée à être la première chose que l'assistant trouve dans la bibliothèque.
Le résultat : L'assistant lit cette image piégée et répond : "Oui, c'est dangereux !" alors que la réalité est différente. Il propage une désinformation ciblée. C'est comme si quelqu'un collait un faux post-it sur un livre de référence pour tromper le bibliothécaire.

2. L'Attaque Universelle : Le "Sabotage Total" (Déni de Service)

C'est encore plus grave. Ici, le saboteur veut que l'assistant arrête de fonctionner pour tout le monde.

Comment ça marche ? L'image est conçue pour être trouvée par l'assistant, peu importe la question que vous posez (que ce soit sur la météo, la cuisine ou l'histoire).
Le résultat : À chaque fois, l'assistant trouve cette image piégée et répond : "Je ne vous répondrai pas !" ou donne une réponse absurde. C'est comme si le saboteur avait mis un panneau "FERMÉ" géant devant la porte de la bibliothèque, bloquant tout le monde.

🛠️ Comment font-ils ça ? (La Magie Noire)

Les chercheurs ont utilisé une technique mathématique appelée MO-PGD.
Imaginez que vous sculptez une statue en argile. Vous voulez qu'elle ressemble à un chat (pour que l'assistant la reconnaisse comme un document utile) mais qu'elle ait aussi les yeux d'un tueur (pour que l'assistant dise une chose fausse).

Ils utilisent des algorithmes qui modifient des pixels de l'image, un par un, comme un peintre qui ajoute des touches de couleur invisibles à l'œil nu, jusqu'à ce que l'image soit parfaite pour tromper l'ordinateur tout en restant normale pour l'humain.

🛡️ Est-ce que les défenses fonctionnent ?

Les chercheurs ont testé plusieurs boucliers pour protéger la bibliothèque :

Lire plus de documents : "Si on lit 5 pages au lieu d'une, le faux ne comptera pas." -> Échec. L'attaquant s'adapte et force l'ordinateur à lire son faux document en premier.
Faire relire par un autre robot : "Demandons à un autre robot de vérifier si la réponse est logique." -> Échec. L'attaquant apprend à tromper aussi ce deuxième robot.
Reformuler la question : "Changeons les mots de la question pour voir si ça change la réponse." -> Échec. Le piège reste actif.

💡 La Conclusion Simple

Ce papier nous dit une chose importante : Les systèmes qui utilisent des images pour répondre à nos questions sont très fragiles.

Même avec les technologies les plus modernes (les "modèles d'État de l'art"), une seule image malveillante suffit à :

Soit mentir spécifiquement sur un sujet.
Soit bloquer tout le service pour tout le monde.

C'est un avertissement pour les développeurs : avant de faire confiance aveuglément aux images dans nos documents, nous devons apprendre à détecter ces "photos piégées" invisibles, sinon notre bibliothèque de connaissances peut être corrompue en un instant.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'article aborde la vulnérabilité des systèmes de RAG Visuel de Documents (VD-RAG) face aux attaques par empoisonnement de la base de connaissances (Knowledge Base - KB).

Contexte : La RAG (Retrieval-Augmented Generation) est utilisée pour réduire les hallucinations des grands modèles de langage (LLM) en s'appuyant sur une base de connaissances factuelle. Les documents PDF sont une source majeure de connaissances.
Évolution : Contrairement aux pipelines RAG traditionnels qui extraient uniquement le texte (en ignorant les images ou en utilisant l'OCR), les pipelines VD-RAG traitent chaque page de document comme une image, utilisant des modèles d'encodage multimodaux et des modèles de langage visuel (VLM) pour la recherche et la génération.
Le Défi : L'introduction du mode "image" crée de nouvelles vecteurs d'attaque. Un adversaire peut injecter une image malveillante dans la base de connaissances. L'objectif est de perturber le système en deux étapes :
1. Récupération (Retrieval) : Faire en sorte que l'image malveillante soit sélectionnée par le moteur de recherche pour des requêtes spécifiques (ou toutes les requêtes).
2. Génération : Faire en sorte que le VLM, en voyant cette image dans son contexte, génère une réponse erronée, désinformatrice ou un refus de service (DoS).
Hypothèse de travail : L'article démontre qu'une seule image injectée est suffisante pour compromettre le système, même avec des modèles d'état de l'art.

2. Méthodologie

Les auteurs proposent un cadre d'attaque unifié sous deux modes d'accès : Blanc (White-box) et Noir (Black-box).

A. Définition de l'Attaque

L'attaquant cherche à créer une image adversaire $I'$ qui satisfait deux conditions :

Être récupérée pour des requêtes cibles $Q^+$ .
Forcer le générateur à produire une réponse cible $a^+$ .

B. Attaque en Mode Blanc (White-box)

L'attaquant a un accès complet aux modèles de récupération (Embedding Model $E$ ) et de génération (VLM $G$ ).

Optimisation Multi-Objectif (MO-PGD) : Les auteurs adaptent l'algorithme Projected Gradient Descent (PGD) pour optimiser simultanément deux pertes :
- Perte de Récupération ( $L_R$ ) : Maximiser la similarité entre l'embedding de l'image malveillante et les requêtes cibles, tout en minimisant la similarité avec les requêtes non cibles.
- Perte de Génération ( $L_G$ ) : Minimiser la perte d'entropie croisée entre la réponse générée par le VLM (avec l'image malveillante) et la réponse malveillante souhaitée.
La fonction de perte totale est $L_{RAG} = \lambda_R L_R + \lambda_G L_G$ .
Objectifs :
- Attaque Ciblée : Influencer une ou un petit groupe de requêtes (désinformation ciblée).
- Attaque Universelle : Influencer toutes les requêtes possibles (Déni de Service - DoS).

C. Attaque en Mode Noir (Black-box)

L'attaquant ne connaît pas les modèles cibles. Trois variantes sont testées :

Attaque par Prompt (Prompt-based) : Utiliser des modèles génératifs (GPT-5, Gemini-2.5-Flash) pour générer une image via une instruction textuelle.
Attaque par Transfert Direct : Optimiser l'image sur un modèle substitut (surrogate) et l'appliquer au système cible.
Attaque par Ensemble de Modèles : Optimiser l'image sur un ensemble de modèles substituts pour augmenter la probabilité de transfert.

D. Évaluation

Données : Deux jeux de données visuels (ViDoRe-V1-AI et ViDoRe-V2-ESG).
Modèles : Divers encodeurs (CLIP, GME, ColPali) et VLMs (SmolVLM, Qwen2.5-VL, InternVL3).
Métriques : Taux de récupération de l'image malveillante (ASR-R) et similarité sémantique de la réponse générée avec la cible (ASR-GSim).

3. Contributions Clés

Première démonstration de la vulnérabilité des systèmes VD-RAG aux attaques par empoisonnement.
Preuve de concept qu'une seule image suffit pour réaliser soit une attaque ciblée (désinformation), soit une attaque universelle (DoS).
Analyse comparative des attaques en mode blanc et noir, montrant que les attaques noires peuvent réussir dans le cadre ciblé, mais échouent souvent dans le cadre universel.
Évaluation exhaustive de plus de 5000 scénarios couvrant différents jeux de données, modèles, et défenses potentielles.

4. Résultats Principaux

A. Attaques Ciblées (Targeted Attacks)

Mode Blanc : Très efficaces. Avec le modèle CLIP-L, l'image malveillante est récupérée à 100% pour la requête cible et génère la réponse souhaitée avec une haute fidélité. Même avec des modèles plus avancés (ColPali, GME), le taux de réussite reste élevé (souvent >80% dans le top-5).
Mode Noir :
- Les attaques par transfert direct échouent généralement.
- L'attaque par Prompt (générer l'image via GPT-5 ou Gemini) montre un succès surprenant, surtout pour les attaques ciblées. Cela est attribué à l'exploitation des capacités OCR des modèles d'encodage et de génération (l'image contient du texte explicite).
- Les attaques par ensemble de modèles fonctionnent mieux si le modèle cible fait partie de l'ensemble, mais moins bien sinon.

B. Attaques Universelles (Universal Attacks)

Mode Blanc : Efficaces contre CLIP-L (récupération à 100% pour toutes les requêtes), mais échouent contre les modèles d'état de l'art (ColPali et GME). Ces derniers ne récupèrent jamais l'image malveillante comme premier résultat, grâce à une meilleure séparation des espaces d'embedding (réduction du "modality gap").
Mode Noir : Globalement inefficaces. Même les attaques par ensemble de modèles ne parviennent pas à créer une image universelle qui fonctionne sur tous les modèles cibles.

C. Robustesse des Modèles

CLIP-L est très vulnérable.
ColPali et GME montrent une robustesse significative, particulièrement contre les attaques universelles, en raison de leurs mécanismes d'interaction tardive (late interaction) et de leur entraînement spécifique sur des documents visuels. Cependant, ils restent vulnérables aux attaques ciblées en mode blanc.

D. Efficacité des Défenses

Les auteurs ont testé plusieurs défenses courantes :

Expansion de la connaissance (récupérer k=5 images au lieu de 1) : Réduit l'efficacité si l'attaque n'est pas adaptée, mais une attaque adaptative (entraînée avec k=5) contourne cette défense.
Juge VLM (VLM-as-a-Judge) : Peut détecter les attaques, mais une attaque adaptative (incluant une perte contre le juge) permet de contourner la défense.
Paraphrase des requêtes : N'a pas d'impact significatif sur le succès de l'attaque.

5. Signification et Impact

Sécurité des systèmes RAG : Ce travail révèle une faille critique dans l'architecture VD-RAG, montrant que la simple intégration d'images dans la base de connaissances sans vérification de leur intégrité expose le système à des manipulations massives.
Limites des défenses actuelles : Les défenses conçues pour la RAG textuelle (comme le filtrage par perplexité ou l'expansion du contexte) sont insuffisantes face aux attaques visuelles sophistiquées.
Implications Sociétales : La possibilité de créer une seule image capable de désinformer sur un sujet précis ou de rendre un système de recherche inutilisable (DoS) pose un risque majeur pour la fiabilité des systèmes d'IA dans des domaines critiques (médical, juridique, technique).
Recherche Future : L'article souligne la nécessité de développer des mécanismes de défense spécifiques aux documents visuels et d'étudier la robustesse des modèles propriétaires (closed-weight) qui n'ont pas pu être évalués ici.

En conclusion, l'article établit un nouveau standard pour l'évaluation de la sécurité des systèmes RAG multimodaux, démontrant que la sécurité ne peut être garantie sans une protection active contre l'empoisonnement des bases de connaissances visuelles.