Toward Epistemic Stability: Engineering Consistent Procedures for Industrial LLM Hallucination Reduction

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez engagé un génie très intelligent mais un peu étourdi pour travailler dans une usine de climatisation et de gestion de bâtiments. Ce génie (c'est l'Intelligence Artificielle, ou LLM) peut écrire des rapports, réparer des pannes et planifier des projets à une vitesse incroyable.

Le problème ? Parfois, ce génie invente des choses. Il dit : « La pompe est cassée » alors qu'elle va très bien, ou il confond deux acronymes techniques. C'est ce qu'on appelle une hallucination. Dans une usine, si vous suivez ses conseils inventés, vous risquez de casser des machines coûteuses ou de mettre des gens en danger.

Ce papier de recherche raconte comment une équipe a appris à calmer ce génie étourdi pour qu'il soit plus fiable, sans avoir besoin de le rééduquer de zéro (ce qui serait trop cher et compliqué). Ils ont testé cinq astuces simples, comme des « règles de jeu » à lui donner avant qu'il ne commence à travailler.

Voici les cinq astuces, expliquées avec des analogies du quotidien :

1. La méthode « Répétez jusqu'à ce que ça colle » (M1)

L'idée : Imaginez que vous demandez à un ami de vous raconter une histoire. S'il la raconte une première fois, puis une deuxième fois, et que les deux versions sont très différentes, c'est qu'il n'est pas sûr de lui.
L'astuce : On lui demande de raconter l'histoire plusieurs fois de suite. On compare les versions. Dès que deux versions se ressemblent beaucoup (comme deux copies d'un même dessin), on s'arrête et on garde cette réponse.
Résultat : Ça marche bien (75 % de succès), mais parfois, il peut inventer la même erreur deux fois de suite, donc ce n'est pas parfait.

2. La méthode « Décomposez le casse-tête » (M2)

L'idée : Si vous demandez à quelqu'un de cuisiner un repas complexe (entrée, plat, dessert) et de faire la vaisselle en même temps, il risque de tout mélanger et d'oublier le sel.
L'astuce : Au début, l'équipe a essayé de lui faire faire les étapes une par une (d'abord lister les ingrédients, puis cuisiner). Mais le génie oubliait des détails importants entre les étapes.
La correction (Version 2) : Ils ont changé la règle : « Tu listes les ingrédients, mais tu gardes la recette originale sous les yeux pour ne rien oublier quand tu cuisines ».
Résultat : C'est le grand gagnant ! En gardant le contexte en tête, les erreurs ont chuté drastiquement.

3. La méthode « Spécialisez les ouvriers » (M3)

L'idée : Imaginez un seul médecin qui doit à la fois diagnostiquer la maladie, prescrire le médicament, calculer le dosage et écrire le rapport administratif. S'il se trompe sur le diagnostic, tout le reste sera faux.
L'astuce : Au lieu d'un seul médecin, on a créé une équipe de quatre spécialistes : un pour le diagnostic, un pour la gravité, un pour le traitement, et un pour le rapport.
La correction (Version 2) : Ils ont ajouté un chef d'équipe (un cinquième agent) qui vérifie que tout le monde est d'accord avant de signer le rapport final.
Résultat : Excellent. En divisant le travail et en ajoutant un vérificateur, les erreurs en cascade disparaissent.

4. La méthode « Le dictionnaire de l'usine » (M4)

L'idée : Le génie regarde un tableau de chiffres (température, pression) mais ne sait pas ce que signifient les codes comme « VLV-01 » ou « CHW ». Il devine, et il se trompe souvent.
L'astuce : Au lieu de lui donner juste les chiffres, on lui donne un manuel de l'usine complet. On lui dit : « « VLV-01 » n'est pas un chiffre magique, c'est une vanne d'eau froide. Si elle est à 100 %, c'est normal. Si elle est à 95 %, c'est une alarme. »
Résultat : C'est la méthode la plus efficace (100 % de succès dans les tests). En lui donnant le contexte exact, il n'a plus besoin d'inventer. C'est comme si on lui avait mis des lunettes de lecture.

5. La méthode « Le petit lexique des acronymes » (M5)

L'idée : Dans le monde de la climatisation, « DX » peut signifier plein de choses différentes selon le contexte. Le génie, lui, ne connaît que le sens général.
L'astuce : Avant de lui poser la question, on lui donne une petite liste de définitions : « Ici, DX veut dire "circuit de refroidissement direct". »
Résultat : Ça marche très bien (77 %), car cela évite qu'il se perde dans les mots techniques.

Le verdict final de l'équipe

L'équipe a conclu que vous n'avez pas besoin de rééduquer le génie (ce qui est difficile et coûteux). Vous avez juste besoin de mieux organiser son environnement de travail :

Donnez-lui les bons outils (le manuel de l'usine, le lexique).
Divisez les tâches pour qu'il ne soit pas submergé.
Faites-le vérifier son travail par un chef d'équipe ou par lui-même.

En résumé, pour rendre l'IA fiable dans l'industrie, il ne faut pas essayer de la rendre « plus intelligente », mais plutôt plus structurée. C'est comme passer d'un élève qui révise tout seul dans sa chambre, à un élève qui a un bon manuel, un plan de travail clair et un professeur qui vérifie ses devoirs.

C'est une victoire pour la sécurité des usines : moins d'erreurs, moins de pannes, et des décisions plus sûres.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article « Toward Epistemic Stability: Engineering Consistent Procedures for Industrial LLM Hallucination Reduction » (Vers une stabilité épistémique : Ingénierie de procédures cohérentes pour la réduction des hallucinations des LLM industriels), rédigé en français.

1. Problématique : L'Instabilité des LLM dans les Contextes Industriels

L'article aborde le défi critique de l'utilisation des Grands Modèles de Langage (LLM) dans des environnements industriels à haut risque (conception d'ingénierie, planification des ressources d'entreprise - ERP, plateformes de télémétrie IoT).

Le problème central : Les hallucinations des LLM (sorties syntaxiquement cohérentes mais factuellement incorrectes) sont des obstacles majeurs. Dans l'industrie, une sortie doit non seulement être plausible en moyenne, mais correcte pour une instance spécifique et auditable.
La nature du risque : Les LLM génèrent du contenu de manière probabiliste, sans ancrage déterministe dans une source de vérité autoritaire. Cela entraîne :
- Ambiguïté des acronymes : Interprétation incohérente de termes techniques (ex: AHU, DX, VFD).
- Effondrement du contexte : Omission silencieuse de contraintes dans des prompts complexes.
- Incohérence en cascade : Une erreur dans une sous-tâche initiale se propage et corrompt les étapes suivantes d'une réponse multi-étapes.
L'objectif : Atteindre une « Stabilité Épistémique ». Ce concept ne vise pas la certitude absolue (philosophique), mais la capacité d'une procédure d'ingénierie à produire des résultats cohérents, répétables et défendables sur plusieurs exécutions, en rendant les affirmations du modèle traçables vers des contextes fournis.

2. Méthodologie : Cinq Stratégies d'Ingénierie de Prompt

Les auteurs proposent et comparent cinq stratégies de prompt engineering (sans modification des poids du modèle ni création de modèles de validation complexes). Chaque méthode est évaluée par rapport à une baseline interne (réponse zero-shot standard) en utilisant un cadre « LLM-as-Judge » (un LLM jugeant la réponse d'un autre LLM).

Les cinq méthodes (M1 à M5) ciblent différentes causes racines :

M1 : Convergence par Similarité Itérative (Iterative Similarity Convergence)
- Principe : Générer plusieurs réponses et utiliser la similarité sémantique entre elles comme signal de convergence. Si deux réponses sont très similaires, on suppose qu'elles sont stables.
- Limite v1 : Deux réponses peuvent converger vers la même erreur systématique.
- Amélioration v2 : Remplacement par une auto-critique dirigée (Self-Critique). Le modèle identifie exactement trois défauts spécifiques et les corrige, plutôt que de chercher une similarité structurelle.
M2 : Prompting Décomposé Agnostique au Modèle (Decomposed Model-Agnostic Prompting)
- Principe : Décomposer la tâche en deux étapes : extraction de faits structurés, puis synthèse en prose.
- Limite v1 : Perte de contexte lors de la synthèse (les contraintes implicites du prompt original sont oubliées).
- Amélioration v2 : Synthèse consciente du contexte. Le prompt original est transmis à l'étape de synthèse comme une « liste de contrôle » explicite pour vérifier que toutes les contraintes sont respectées.
M3 : Spécialisation des Agents à Tâche Unique (Single-Task Agent Specialization)
- Principe : Remplacer un agent multi-tâches par une chaîne d'agents spécialisés (ex: un pour la cause racine, un pour la sévérité, un pour la remédiation).
- Amélioration v2 : Ajout d'un agent Réconciliateur (Reconciler) qui reçoit toutes les sorties des agents précédents pour détecter les contradictions internes et produire un rapport final cohérent.
M4 : Registre de Données Amélioré (Enhanced Data Registry)
- Principe : Au lieu d'un index de recherche (RAG), injection directe d'un contexte structuré enrichi dans le prompt. Chaque donnée de capteur brute est augmentée de métadonnées sémantiques (type de composant, plage normale, seuils de défaut, dépendances physiques).
- Avantage : Élimine le besoin pour le modèle d'inférer le sens physique à partir d'identifiants opaques.
M5 : Injection de Glossaire de Domaine (Domain Glossary Injection)
- Principe : Préfixer le prompt avec un glossaire contrôlé d'acronymes techniques pour désambiguïser les termes.
- Amélioration v2 : Récupération dynamique. Seuls les termes pertinents pour la requête spécifique sont injectés, réduisant le bruit et la surcharge de tokens.

3. Configuration Expérimentale

Modèle : OpenAI GPT-5-chat (déployé via Azure OpenAI).
Paramètres : Température $\tau = 0.7$ pour la génération (stochastique), $\tau = 0.0$ pour le juge.
Protocole :
- D1 : 100 exécutions répétées pour chaque méthode v1 sur le même prompt fixe (mesure de la variance d'échantillonnage).
- D2 : 10 exécutions pour les versions v2 (batch de vérification exploratoire).
Juge : Le même modèle (GPT-5) évalue les réponses sur trois dimensions : Précision, Clarté/Structure, Directivité. Verdicts : « Meilleur », « Identique », « Pire ».

4. Résultats Clés

Résultats D1 (100 essais, méthodes v1)

M4 (Registre de Données) : 100 % de verdicts « Meilleur ». Aucune réponse n'a été jugée « Pire ». C'est la méthode la plus performante, probablement grâce à l'ancrage sémantique fort des données enrichies.
M3 (Agents) : 80 % « Meilleur ». La spécialisation des tâches réduit efficacement les erreurs en cascade.
M5 (Glossaire) : 77 % « Meilleur ». La désambiguïsation des acronymes fonctionne bien.
M1 (Itératif) : 75 % « Meilleur ». La convergence par similarité est un signal indirect utile mais imparfait.
M2 (Décomposé) : 34 % « Meilleur** (Négatif net). La méthode v1 a échoué car l'étape de synthèse a perdu des contraintes cruciales du prompt original.

Résultats D2 (10 essais, méthodes v2)

M2 v2 (Context-Aware) : Gain spectaculaire, passant de 34 % à 80 %. La transmission du prompt original à l'étape de synthèse a résolu le problème de perte de contexte.
M1 v2 (Auto-critique) : 100 % « Meilleur ». La critique ciblée (3 défauts) est plus efficace que la simple convergence.
M3 v2 (Consensus) : 100 % « Meilleur ». L'agent réconciliateur a éliminé les incohérences résiduelles.
M4 : Reste à 100 %.
M5 v2 : 60 % (baisse apparente due à la petite taille de l'échantillon $n=10$ , mais aucune réponse « Pire »).

5. Contributions et Signification

Contributions principales :

Artéfacts adaptés au domaine : Création de schémas de registres pour le BMS/HVAC et de glossaires techniques spécifiques, testés sur des requêtes de production réelles et non sur des benchmarks génériques.
Protocole d'évaluation interne : Chaque méthode génère sa propre baseline zero-shot au sein de la même exécution, contrôlant ainsi les variations de session et de prompt.
Diagnostic précis des échecs : Identification claire de la cause de l'échec de M2 v1 (perte de contexte) et validation de la correction v2.
Transparence des limites : Reconnaissance explicite des biais potentiels (juge et générateur sont le même modèle, biais de longueur des réponses) et de la nécessité de validation humaine.

Signification pour l'industrie :
L'article démontre que l'on peut améliorer la fiabilité des LLM industriels sans réentraînement coûteux ni fine-tuning. En ingénierant des procédures qui augmentent la qualité des entrées (données structurées, glossaires) et réduisent la complexité de la tâche (décomposition, agents spécialisés), il est possible d'atteindre une stabilité épistémique.

Cela signifie que même si l'exactitude absolue ne peut être garantie mathématiquement, les procédures permettent de produire des diagnostics et des rapports cohérents, vérifiables et ancrés dans des faits fournis, réduisant ainsi le risque opérationnel dans des secteurs critiques comme l'automatisation des bâtiments (BMS) et la gestion des pannes ERP.

Conclusion : La clé n'est pas de faire confiance aveuglément au modèle, mais de construire un contexte d'inférence si riche et structuré que le modèle n'a plus besoin d'inventer des faits pour combler les lacunes.