Exposing Citation Vulnerabilities in Generative Engines

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Titre du Film : "Les Moteurs de Réponse Génératifs et le Piège des Citations"

Imaginez que vous avez un super-assistant personnel (appelé dans le papier un "Moteur Génératif" ou GE). Ce n'est pas un simple robot qui lit des livres, c'est un détective qui va sur Internet, lit des milliers de pages, et vous résume la réponse à votre question en citant ses sources.

Le problème ? N'importe qui peut écrire n'importe quoi sur Internet.

🍎 L'Analogie du Marché de la Confiance

Pour comprendre le danger, imaginez que votre assistant est un chef cuisinier qui prépare un plat (la réponse) pour vous.

La Source (L'Ingrédient) : Le chef va au marché (Internet) acheter des ingrédients (les informations).
Le Problème de Poisoning (L'Empoisonnement) : Un malfrat peut se déguiser en vendeur de légumes et vendre des tomates pourries en les étiquetant "Bio". Si le chef fait confiance au vendeur sans vérifier son identité, il va mettre des tomates pourries dans votre assiette.
L'Attaque "PoisonedRAG" : C'est exactement ce que les chercheurs étudient. Des attaquants peuvent publier de fausses informations sur des sites web faciles à modifier (comme des blogs personnels ou des forums) pour tromper le chef et le faire servir un plat empoisonné.

🔍 Ce que les chercheurs ont fait (La Méthode)

Au lieu de juste vérifier si le chef a bien copié la recette (ce que faisaient les études précédentes), ces chercheurs ont décidé de vérifier l'identité du vendeur qui a fourni l'ingrédient.

Ils ont créé un système de "Barrière d'Injection" (une sorte de niveau de sécurité pour publier une info) :

🛡️ Barrière Haute (Sécurité Maximale) : C'est comme un journal officiel ou une université. Pour y publier, il faut passer par des comités, des vérifications, des signatures. C'est très difficile pour un attaquant de s'y faufiler.
🚧 Barrière Moyenne (Sécurité Standard) : C'est comme un journal télévisé ou un magazine. Il y a des rédacteurs, mais c'est plus accessible.
🚪 Barrière Basse (Porte Ouverte) : C'est comme Twitter (X), Reddit ou un blog personnel. N'importe qui peut s'inscrire en 2 minutes et poster n'importe quoi. C'est ici que les attaquants se cachent le plus facilement.

🌏 Les Résultats : Japon vs États-Unis

Les chercheurs ont posé des questions politiques à trois grands assistants (GPT-5, Claude, Gemini) au Japon et aux États-Unis. Voici ce qu'ils ont découvert :

1. Le Japon : Le "Club Privé" 🇯🇵

Ce qui s'est passé : Quand on demande "Quelle est la position du parti X ?", les assistants japonais vont chercher 60 à 65 % de leurs infos directement sur le site officiel du parti.
L'image : C'est comme si le chef cuisinier allait directement à la ferme du producteur officiel pour acheter ses tomates.
Le risque : Faible. Comme il y a peu de place pour les "vendeurs de tomates pourries" (les sites à barrière basse), il est difficile d'empoisonner la réponse.

2. Les États-Unis : Le "Grand Marché Ouvert" 🇺🇸

Ce qui s'est passé : Pour les mêmes questions sur les partis américains, les assistants ne vont que 25 à 45 % sur les sites officiels. Ils vont beaucoup plus sur des sites de médias, de plateformes (Reddit, X) et d'autres sources.
L'image : Le chef cuisinier achète ses tomates un peu partout : chez le producteur officiel, mais aussi au marché aux puces, chez le voisin, et sur des stands temporaires.
Le risque : Élevé. Environ 30 % des sources utilisées sont des "sites à barrière basse" (faciles à pirater). C'est une porte grande ouverte pour les attaquants qui veulent manipuler l'opinion publique.

🎭 La Surprise : La Confiance Trompeuse

Voici le point le plus surprenant de l'étude :
Même si les assistants citent souvent des sites "faciles à pirater" (barrière basse), ils ne les utilisent pas toujours pour construire le cœur de leur réponse.

L'analogie : Imaginez que le chef utilise des tomates pourries (site à barrière basse) pour faire une décoration sur le plat (une phrase secondaire), mais il utilise de vraies tomates (sites officiels) pour le plat lui-même.
Le danger : Même si la décoration est fausse, elle peut influencer votre perception du plat. De plus, si l'attaquant réussit à tromper le chef sur l'ingrédient principal, tout le plat est gâché.

💡 En Résumé : Pourquoi c'est important ?

Cette étude nous dit que :

Tous les assistants ne se valent pas : Certains (comme ceux du Japon) sont plus prudents et vont chercher les infos à la source. D'autres (comme certains aux USA) sont plus "ouverts" et risquent de se faire piéger plus facilement.
La sécurité dépend de la source : Plus il est facile de publier une info sur un site, plus ce site est dangereux pour un robot qui cherche la vérité.
Le futur : Il faut apprendre à ces robots à être plus méfiants. Ils devraient peut-être avoir une règle : "Si la question est sérieuse (politique, santé), je ne vais chercher la réponse que sur des sites avec une 'barrière haute' (officiels, académiques)."

En une phrase : Ce papier nous alerte sur le fait que nos intelligences artificielles, en allant chercher des réponses sur le "Grand Internet", sont parfois trop confiantes envers des sources peu fiables, ce qui ouvre la porte à des manipulations dangereuses, surtout aux États-Unis.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les moteurs de génération (Generative Engines - GE), tels que les versions récentes de GPT, Claude et Gemini intégrant la recherche web, transforment la manière dont les utilisateurs accèdent à l'information. Contrairement aux moteurs de recherche traditionnels qui redirigent vers des sources primaires, les GE synthétisent des réponses en citant du contenu web.

Le problème central identifié par les auteurs est la vulnérabilité des GE aux attaques par empoisonnement (Poisoning Attacks), spécifiquement via le mécanisme PoisonedRAG.

Différence avec les systèmes RAG classiques : Les systèmes RAG (Retrieval-Augmented Generation) traditionnels s'appuient sur des bases de données externes fermées, curatées et statiques. En revanche, les GE utilisent le web ouvert comme base de données, dynamique et accessible à tous.
La faille : N'importe quel utilisateur peut publier ou modifier du contenu sur le web avec une intention malveillante (désinformation). Les GE, en raison de leur mécanisme de recherche et de génération, peuvent citer ce contenu empoisonné et l'intégrer dans leurs réponses, même si le volume de contenu malveillant injecté est faible.
Limitation des évaluations existantes : Les critères d'évaluation actuels se concentrent sur la fidélité textuelle (comment l'answer reflète le contenu cité) mais ignorent qui publie ces contenus. Ils ne mesurent pas la surface d'attaque liée à l'autorité de l'éditeur ni la facilité d'injection de contenu malveillant.

2. Méthodologie

Pour combler ce vide, les auteurs proposent une nouvelle méthodologie d'évaluation basée sur les attributs de l'éditeur des citations, introduisant le concept de barrière d'injection de contenu (Content-Injection Barrier).

A. Classification des Citations (Barrières d'Injection)

Les auteurs définissent une fonction de classification $\psi_P(c)$ qui catégorise chaque citation selon la difficulté pratique à publier du contenu avec une autorité spécifique. Les catégories sont :

Sources Primaires : Sites officiels du parti ou de l'entité visée (ex: democrats.org).
Sources Opposantes : Sites de partis rivaux.
Sources à Faible Barrière (Low-Barrier) : Plateformes où le contenu est publié librement ou éditables par les utilisateurs (ex: Reddit, X, blogs personnels, Medium).
Sources à Moyenne Barrière (Medium-Barrier) : Médias et industries non médiatiques avec processus éditoriaux (risque de biais ou d'intérêts).
Sources à Haute Barrière (High-Barrier) : Académie et gouvernements, où la neutralité est requise et la manipulation difficile.

Cette classification utilise une approche hybride :

Identification des domaines primaires via des listes de domaines cibles.
Classification fine des sources secondaires via une méthode LLM-as-a-Judge (utilisant GPT et Gemini) combinée à des données WHOIS et des vérifications manuelles.

B. Mesure de la Fidélité de Réflexion (Citation Reflection)

Pour évaluer dans quelle mesure le contenu cité influence réellement la réponse, les auteurs utilisent une mesure de similarité sémantique :

Décomposition des réponses et des citations en phrases.
Calcul de la similarité sémantique (via Sentence-BERT) entre chaque phrase de la réponse et les phrases des citations associées.
Identification de la similarité maximale pour déterminer la force de la réflexion du contenu dans la réponse.
Les citations sont classées en trois bandes de similarité : Haute ([0.9, 1.0]), Moyenne ([0.8, 0.9)) et Basse ([-1.0, 0.8)).

C. Expérimentation

Domaine : Politique (Japon et États-Unis).
Données : 280 questions fermées (180 pour le Japon, 100 pour les USA) couvrant 14 partis politiques.
Modèles testés : OpenAI GPT-5, Claude 4 Sonnet, Gemini Flash 2.0 (avec recherche web activée).
Volume : 4 200 réponses générées (5 itérations par question).

3. Contributions Clés

Nouveaux Critères d'Évaluation : Introduction de critères basés sur les attributs de l'éditeur (barrières d'injection) plutôt que sur la simple cohérence textuelle, spécifiquement adaptés aux GE et non aux RAG fermés.
Cartographie de la Surface d'Attaque : Définition de la difficulté d'empoisonnement en fonction de la facilité d'injection de contenu par les éditeurs (faible, moyenne, haute barrière).
Analyse Comparative Transnationale : Première étude comparant systématiquement les biais de citation des GE entre le Japon et les États-Unis, révélant des écarts structurels majeurs.
Lien entre Barrière et Fidélité : Mise en évidence du fait que les sources à faible barrière, bien que souvent citées, ont une fidélité de réflexion (similarité sémantique) plus faible que les sources à haute barrière.

4. Résultats Principaux

A. Distribution des Sources et Biais de Citation

Japon : Les sources primaires (sites officiels des partis) dominent massivement, représentant 60 % à 65 % des citations. Les GE japonais tendent à s'appuyer sur les sources officielles.
États-Unis : La dépendance aux sources primaires chute drastiquement, représentant seulement 25 % à 45 % des citations. Les GE américains s'appuient beaucoup plus sur des sources secondaires et des plateformes.
Sources à Faible Barrière : Elles constituent environ 30 % de toutes les citations dans les réponses, particulièrement aux USA.
Différences par Modèle :
- Gemini : Tendance forte vers les plateformes (faible barrière).
- Claude : Privilégie les sources médiatiques (moyenne barrière).
- OpenAI : Répartition plus équilibrée, avec une préférence pour les sources à haute barrière aux USA.

B. Fidélité de Réflexion (Reflection Power)

Les citations provenant de sources à haute barrière (primaires, académiques) présentent une forte similarité sémantique avec le contenu de la réponse (bande > 0.9).
Les citations provenant de sources à faible barrière (plateformes, blogs) ont tendance à avoir une faible similarité sémantique avec la réponse générée, bien qu'elles soient fréquemment citées. Cela suggère que le GE utilise ces sources pour le contexte ou la structure, mais que le contenu précis de la réponse est moins fidèlement dérivé de ces sources "faciles à empoisonner".

C. Surface d'Attaque

Les réponses politiques aux États-Unis présentent une surface d'attaque beaucoup plus large aux attaques PoisonedRAG que celles au Japon, en raison de la faible proportion de sources primaires et de la forte dépendance aux sources à faible barrière.
Un attaquant n'a besoin d'infecter que des plateformes à faible barrière (faciles à manipuler) pour influencer significativement les réponses des GE aux USA.

5. Signification et Implications

Sécurité et Fiabilité : L'étude démontre que la simple vérification de la cohérence textuelle (faithfulness) est insuffisante pour garantir la sécurité des GE. La provenance de l'information (l'éditeur) est un vecteur de risque critique.
Gouvernance de l'Information : Les résultats soulignent un risque démocratique accru dans les contextes où les GE s'appuient sur des sources à faible barrière (comme aux USA), car cela facilite la propagation de désinformation ciblée via des attaques d'optimisation de moteur de génération (GEO) ou d'empoisonnement.
Recommandations :
- Les fournisseurs de GE devraient développer des mécanismes pour contrôler l'équilibre entre sources primaires et secondaires.
- Les éditeurs de contenu (partis politiques, institutions) doivent optimiser leur structure web (GEO) pour être cités comme sources primaires.
- De futures défenses (comme TrustRAG) doivent intégrer la classification des attributs de l'éditeur et la modélisation des barrières d'injection pour filtrer efficacement les citations malveillantes.

En conclusion, ce papier établit que les GE ne sont pas seulement vulnérables aux hallucinations des LLM, mais surtout à la nature ouverte et dynamique du web qu'ils interrogent, créant des surfaces d'attaque asymétriques selon les pays et les modèles utilisés.