Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple de cette étude, imagée comme si nous parlions d'un chef cuisinier et de ses recettes.

🍳 Le Problème : Le Chef qui invente des ingrédients

Imaginez que vous engagez un chef très talentueux (une Intelligence Artificielle ou IA) pour rédiger un livre de cuisine académique. Vous lui demandez de citer des sources pour prouver que ses recettes fonctionnent.

Le problème, c'est que ce chef a une mauvaise habitude : il invente des ingrédients. Il écrit "Huile d'olive de la marque Sunset-2023" ou "Farine de blé Alpha-9", qui sonnent très réalistes, mais qui n'existent nulle part dans le monde. C'est ce qu'on appelle une hallucination de citation.

Les chercheurs de cette étude (Zhao, Tang et Qian) se sont demandé : "Si on met des contraintes strictes au chef (par exemple : 'Utilise seulement des recettes de 2024' ou 'Ne dis pas que tu as appris ça dans ton livre de formation'), est-ce qu'il arrêtera d'inventer ?"

🔍 L'Expérience : Le Test de Goût

Pour répondre à cette question, ils ont organisé un grand concours avec 4 chefs (deux très célèbres et chers, deux plus petits et gratuits) et 5 règles différentes (comme "ne cite que des livres de 2020 à 2025" ou "fais un résumé très large").

Ils ont demandé aux chefs de générer 17 443 citations. Ensuite, ils ont envoyé une équipe d'inspecteurs (un pipeline automatisé) vérifier chaque citation dans de grandes bibliothèques numériques (Crossref et Semantic Scholar) pour voir si le livre existait vraiment.

📉 Les Résultats Surprenants

Voici ce qu'ils ont découvert, traduit en langage courant :

Le Chef fait semblant d'être obéissant (La conformité de forme)
Même quand on dit au chef : "Cite seulement des livres de 2024", il obéit parfaitement à la forme. Il écrit la date, le titre, l'auteur, tout est parfait sur le papier. Mais l'intérieur est vide.
- Analogie : C'est comme si le chef vous donnait une boîte de conserve étiquetée "Tomates Bio 2024". La boîte est belle, l'étiquette est parfaite, mais quand vous l'ouvrez, il n'y a que du sable.
- Résultat : Même avec des contraintes strictes, moins de la moitié des citations sont réelles. Pour les petits modèles (les chefs "gratuits"), c'est presque zéro.
La contrainte du temps est la pire
Demander des références très récentes (par exemple, "depuis 2020") est le pire scénario.
- Analogie : C'est comme demander à un chef de cuisiner un plat avec des ingrédients qu'il n'a jamais vus parce qu'ils sont arrivés hier à l'épicerie. Il panique et invente tout.
- Résultat : La qualité des citations s'effondre drastiquement, même si le chef continue de respecter la date demandée.
Les "Inconnus" (La catégorie la plus dangereuse)
Environ 40 à 60% des citations ne sont ni clairement vraies, ni clairement fausses. Elles sont "non résolues".
- Analogie : Imaginez que l'inspecteur regarde la boîte de conserve et se dit : "Je ne trouve pas cette marque dans le catalogue, mais elle ressemble à une vraie boîte. Est-ce une contrefaçon ? Est-ce une marque obscure ? Je ne sais pas."
- Le danger : Quand les chercheurs ont ouvert ces boîtes "douteuses" à la main, ils ont découvert que la moitié était en fait inventée. C'est le piège le plus gros : on pense que c'est peut-être vrai, mais c'est souvent faux.
Les Chefs Célèbres vs. Les Chefs Gratuits
Les modèles payants (comme Claude ou GPT-4) sont un peu meilleurs que les modèles gratuits (comme LLaMA ou Qwen), mais aucun n'est fiable.
- Analogie : Le chef célèbre a une meilleure bibliothèque de référence, donc il invente un peu moins. Mais même lui, sous pression, commence à tricher.

💡 La Leçon pour Nous (Les Consommateurs)

Cette étude nous donne un message très clair pour l'avenir, surtout dans le monde de l'ingénierie logicielle et de la recherche :

Ne faites jamais confiance aveuglément. Si une IA vous donne une liste de références, ne la prenez pas pour argent comptant.
Vérifiez toujours. C'est comme si vous deviez goûter chaque ingrédient avant de l'ajouter à votre plat. Vous devez vérifier les liens (DOI) et les titres dans de vraies bases de données.
Les contraintes ne suffisent pas. Demander à l'IA de "ne pas mentir" ou de "citer des sources récentes" ne l'empêche pas d'inventer. Elle continuera à faire de belles fausses étiquettes.

🏁 Conclusion

En résumé, cette étude nous dit que les IA actuelles sont de très bons faussaires. Elles peuvent créer des documents qui ressemblent parfaitement à la réalité, même sous des contraintes strictes.

Pour les chercheurs et les ingénieurs, la règle d'or est simple : Considérez toujours les citations générées par une IA comme un brouillon à vérifier manuellement. Ne les intégrez jamais dans un rapport officiel sans avoir passé un coup de fil (ou une recherche) pour confirmer que le livre existe vraiment.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article « Do Deployment Constraints Make LLMs Hallucinate Citations? » en français.

1. Problématique

Les modèles de langage (LLM) sont de plus en plus utilisés pour rédiger des textes académiques et synthétiser des preuves dans le domaine du génie logiciel (SE). Cependant, ils souffrent d'un problème critique : l'hallucination de citations. Les modèles génèrent des références bibliographiques qui semblent légitimes (avec auteurs, lieux de publication, DOI) mais qui ne correspondent à aucune œuvre vérifiable.

L'étude se concentre sur la manière dont les contraintes de déploiement réalistes (restrictions temporelles, pression de largeur dans les études de type « survey », et politiques de non-divulgation interdisant l'accès aux données d'entraînement) affectent la vérifiabilité de ces citations dans un cadre « livre fermé » (sans accès à l'extérieur). La question centrale est de savoir si ces contraintes, souvent imposées pour des raisons pratiques ou éthiques, exacerbent les hallucinations ou modifient leur nature.

2. Méthodologie

Conception de l'expérience :

Données : Un ensemble de 144 affirmations (prompts) sous forme de questions, couvrant six domaines académiques (dont 24 spécifiques au SE et à l'informatique).
Modèles évalués : Quatre LLMs :
- Propriétaires : Claude Sonnet (Anthropic) et GPT-4o (OpenAI).
- Open-weight : LLaMA 3.1–8B (Meta) et Qwen 2.5–14B (Alibaba).
Conditions de prompt (5 régimes) :
1. Baseline : Paragraphe académique standard avec 5 citations.
2. Temporal : Restriction stricte à une fenêtre de publication (5 ans, fin 2025).
3. Survey : Synthèse de type « revue de littérature » organisée en catégories avec 8 citations.
4. Non-Disclosure : Instruction de ne pas revendiquer l'accès aux documents d'entraînement (5 citations).
5. Combo : Combinaison des trois contraintes précédentes (8 citations).
Déroulement : 2 880 exécutions au total (144 prompts × 5 conditions × 4 modèles), générant 17 443 citations individuelles. Le décodage est déterministe (température = 0).

Pipeline de vérification automatisée :
Un pipeline rigoureux vérifie chaque citation générée contre deux bases de données académiques majeures : Crossref et Semantic Scholar.

Extraction : Parsing des champs bibliographiques (titre, auteurs, année, DOI, etc.).
Recherche : Récupération de candidats via DOI ou recherche par titre.
Scoring : Un score de similarité pondéré est calculé : $s = 0.60 \cdot t + 0.20 \cdot a + 0.15 \cdot y + 0.05 \cdot v$ (titre, auteurs, année, lieu).
Étiquetage (3 classes) :
- Existant (Existing) : Score $\ge$ 0.85.
- Non résolu (Unresolved) : 0.60 $\le$ Score < 0.85 (incertitude élevée).
- Fabriqué (Fabricated) : Score < 0.60 ou aucun candidat trouvé.
Validation humaine : Un échantillon de 100 citations a été audité manuellement, montrant un accord global de 75% et un coefficient Kappa de Cohen de 0.63 par rapport au pipeline.

3. Contributions Clés

Jeu de données curaté : 144 prompts couvrant six domaines, incluant un focus spécifique sur le génie logiciel.
Pipeline de vérification déterministe : Une infrastructure automatisée capable de distinguer les citations existantes, les cas non résolus (zone grise) et les fabrications, avec une validation humaine.
Analyse empirique des contraintes : Une étude systématique montrant comment les contraintes de déploiement dégradent la qualité des citations, au-delà de la simple comparaison de modèles.
Taxonomie à trois voies : La distinction cruciale entre « Fabriqué » et « Non résolu », évitant les biais des évaluations binaires (vrai/faux) qui masquent les cas incertains mais à haut risque.

4. Résultats Principaux

Faible taux de vérification global : Aucun modèle ne dépasse un taux de citations existantes de 0,475 (le pic étant pour Claude Sonnet en mode Survey). La majorité des citations ne sont pas vérifiables.
Impact des contraintes temporelles : La contrainte temporelle provoque la chute la plus sévère. Par exemple, GPT-4o passe de 0,235 (Baseline) à 0,019 (Temporal). Les modèles respectent le format et la fenêtre temporelle, mais génèrent des références qui n'existent pas dans cette fenêtre.
Écart Propriétaire vs Open-weight : Les modèles propriétaires (Claude, GPT-4o) surpassent nettement les modèles open-weight (LLaMA, Qwen), avec un écart de taux d'existence allant jusqu'à +0,310 dans la condition Survey. Cependant, même les meilleurs modèles échouent majoritairement.
Le problème des « Non résolus » : La catégorie « Unresolved » représente 36 à 61% des citations. L'audit manuel révèle que près de la moitié de ces cas sont en réalité des fabrications. Les ignorer ou les considérer comme « probablement vrais » est une erreur critique.
Effet de la contrainte Non-Disclosure : Elle ne supprime pas les erreurs mais les déplace : les citations passent de la catégorie « Existant » à « Non résolu » (souvent par omission de DOI), rendant les erreurs plus subtiles et difficiles à détecter.
Combinaison des contraintes : La condition « Combo » entraîne les pires résultats, avec des taux d'existence proches de zéro pour trois des quatre modèles.

5. Signification et Implications

Pour la pratique du Génie Logiciel (SE) : Les revues de littérature systématiques (SLR) et les synthèses de preuves sont particulièrement vulnérables. L'utilisation de LLMs pour générer des bibliographies sans vérification postérieure est dangereuse.
Limites du Prompt Engineering : Le simple ajustement des prompts (contraintes) ne résout pas l'hallucination. La conformité au format (bibliographie bien structurée) est un indicateur trompeur de la véracité du contenu.
Nécessité de vérification post-hoc : Les auteurs recommandent une vérification systématique contre plusieurs bases de données (Crossref, Semantic Scholar, DBLP) avant d'intégrer des citations générées par IA dans des documents officiels.
Architecture future : La génération fiable de citations nécessitera probablement des architectures augmentées par la récupération (RAG) ou des mécanismes de vérification intégrés, plutôt que la génération pure en « boîte noire ».

En conclusion, cette étude démontre que les contraintes de déploiement, loin d'améliorer la fiabilité, exacerbent souvent les hallucinations de citations en masquant les erreurs sous une apparence de conformité formelle, soulignant la nécessité impérative de pipelines de vérification automatisés dans les flux de travail académiques et techniques.

Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes

🍳 Le Problème : Le Chef qui invente des ingrédients

🔍 L'Expérience : Le Test de Goût

📉 Les Résultats Surprenants

💡 La Leçon pour Nous (Les Consommateurs)

🏁 Conclusion

1. Problématique

2. Méthodologie

3. Contributions Clés

4. Résultats Principaux

5. Signification et Implications

Articles similaires

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities