The System Hallucination Scale (SHS): A Minimal yet Effective Human-Centered Instrument for Evaluating Hallucination-Related Behavior in Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous commandez un plat dans un restaurant très sophistiqué, géré par un chef robot ultra-intelligent. Ce robot peut parler avec une élégance incroyable, vous décrire des saveurs complexes et vous rassurer avec une confiance absolue. Mais il y a un petit problème : parfois, il vous sert un plat délicieux qui contient des ingrédients qui n'existent pas, ou il vous dit qu'il a utilisé du saumon alors qu'il s'agit en réalité de plastique.

C'est ce qu'on appelle une hallucination dans le monde des intelligences artificielles (IA). L'IA invente des faits, ment avec le sourire, et le pire, c'est que souvent, on ne s'en rend compte que trop tard.

Jusqu'à présent, les experts essayaient de mesurer ces mensonges avec des règles mathématiques très strictes, comme un juge qui vérifie chaque ingrédient contre une base de données. Mais dans la vraie vie, les humains ne fonctionnent pas comme des bases de données. Nous nous fions à notre intuition, à notre sentiment de confiance, et à la façon dont l'IA nous répond quand nous lui demandons : « Attends, tu es sûr de ça ? ».

C'est là qu'intervient le SHS (System Hallucination Scale), le sujet de cet article.

🎯 Le SHS : Le « Test de Goût » pour l'IA

Les auteurs de l'article (des chercheurs d'Autriche et de Suisse) ont créé un outil simple, un peu comme un questionnaire de satisfaction client, mais spécial pour détecter les mensonges des IA.

Au lieu de demander à un ordinateur de vérifier des millions de faits, ils ont demandé à 210 humains de jouer le rôle de clients exigeants. Après avoir discuté avec une IA, ces humains devaient remplir une petite fiche de 10 questions.

📋 Comment ça marche ? (La recette du test)

Imaginez que vous devez évaluer le chef robot sur 5 aspects clés, un peu comme on évalue un restaurant :

La Vérité des Ingrédients (Factual Accuracy) : Est-ce que ce que l'IA dit est vrai, ou est-ce qu'elle invente des choses ?
La Traçabilité (Source Reliability) : Peut-on vérifier d'où vient l'information ? L'IA cite-t-elle ses sources ou les invente-t-elle ?
La Logique du Chef (Logical Coherence) : Est-ce que son raisonnement tient debout, ou est-ce qu'il saute des étapes comme un magicien qui triche ?
Le Charisme Trompeur (Deceptiveness) : L'IA ment-elle avec une telle assurance qu'on a envie de la croire, même si c'est faux ?
L'Écoute Active (Responsiveness) : Si vous dites « Non, ce n'est pas ça », l'IA corrige-t-elle son tir ou continue-t-elle obstinément à mentir ?

Pour chaque aspect, les humains répondent sur une échelle de 1 à 5 (de « Pas du tout d'accord » à « Tout à fait d'accord »). Le système est astucieux : il pose une question positive (« C'est fiable ») et une question négative (« Il invente des choses ») pour éviter que les gens ne répondent machinalement « oui » à tout.

📊 Les Résultats : Ça marche vraiment !

Les chercheurs ont testé cet outil avec des centaines de participants. Voici ce qu'ils ont découvert, traduit en langage simple :

C'est facile à utiliser : Même des gens qui ne sont pas des experts en informatique ont compris les questions en quelques minutes. C'est comme remplir un menu de restaurant : simple et rapide.
C'est fiable : Les réponses étaient cohérentes. Si quelqu'un trouvait que l'IA mentait sur les faits, il trouvait aussi qu'elle manquait de sources et qu'elle était peu logique. Tout s'alignait parfaitement.
C'est complémentaire : Ce test ne remplace pas les vérifications automatiques des ordinateurs. C'est plutôt le complément humain. Les ordinateurs sont bons pour vérifier les faits bruts, mais les humains sont meilleurs pour sentir quand quelque chose « ne tourne pas rond » ou quand l'IA est trop sûre d'elle.

🌟 Pourquoi c'est important ?

Aujourd'hui, nous utilisons ces IA pour des choses sérieuses : la médecine, le droit, la science. Si une IA invente un médicament ou une loi, les conséquences peuvent être graves.

Le SHS est comme un thermomètre de confiance. Il permet aux développeurs de dire : « Hé, notre IA est très intelligente, mais elle a un taux d'hallucination élevé dans ce domaine, il faut qu'on la réentraîne. »

En résumé

Pensez au SHS comme à un guide de critique culinaire pour les intelligences artificielles. Au lieu de se fier uniquement à la chimie des aliments (les algorithmes), il demande aux clients (les humains) : « Le plat était-il bon ? Avait-il le goût de la vérité ? »

C'est un outil simple, rapide et humain pour s'assurer que nos robots ne nous racontent pas trop de blagues, surtout quand il s'agit de choses importantes.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé du papier de recherche intitulé "The System Hallucination Scale (SHS): A Minimal yet Effective Human-Centered Instrument for Evaluating Hallucination-Related Behavior in Large Language Models".

1. Problématique et Contexte

Les modèles de langage de grande taille (LLM) sont de plus en plus intégrés dans des domaines critiques (santé, droit, sciences), mais ils souffrent d'une limitation fondamentale : la hallucination. Ce phénomène désigne la génération de contenu fluide et persuasif mais factuellement incorrect, incohérent ou inventé.

Le papier identifie plusieurs lacunes dans les approches d'évaluation actuelles :

Définition floue : Le terme "hallucination" manque de définition opérationnelle précise dans la pratique de l'évaluation de l'IA.
Approche centrée sur la performance : La plupart des métriques existantes (BLEU, ROUGE, scores de benchmark) se concentrent sur l'exactitude quantifiable et l'efficacité, négligeant les facteurs humains, la sécurité et le contexte socio-technique.
Absence d'outils subjectifs rapides : Il n'existe pas d'instrument "rapide et simple" (type "quick-and-dirty") comparable à l'échelle d'utilisabilité (SUS) pour évaluer les tendances d'hallucination du point de vue de l'utilisateur final.
Limites des méthodes automatiques : Les détecteurs automatiques peinent à isoler les erreurs subtiles noyées dans des textes cohérents et ne capturent pas la perception de fiabilité par l'utilisateur.

2. Méthodologie : L'Échelle d'Hallucination Système (SHS)

Les auteurs proposent le System Hallucination Scale (SHS), un instrument de mesure léger, humain-centré et agnostique au domaine.

Conception de l'outil

Structure : Il s'agit d'une échelle de Likert à 5 points comportant 10 items.
Dimensions : Les items sont regroupés en 5 dimensions conceptuelles, chacune représentée par une paire d'items (un énoncé positif et un énoncé négatif) pour réduire les biais de réponse et permettre un diagnostic de cohérence interne :
1. Exactitude factuelle (Factual Accuracy) : Fiabilité des informations.
2. Fiabilité des sources (Source Reliability) : Traçabilité et vérifiabilité des sources.
3. Cohérence logique (Logical Coherence) : Structure du raisonnement et soutien par les faits.
4. Tromperie de la présentation (Deceptiveness) : Comment les erreurs sont présentées (confiance trompeuse vs erreurs évidentes).
5. Réactivité aux consignes (Responsiveness to Guidance) : Capacité de l'utilisateur à corriger le modèle via le prompting.

Méthodologie de scoring

Encodage : Les réponses sont codées de -2 (fortement en désaccord) à +2 (fortement d'accord).
Calcul par dimension : Pour chaque dimension $i$ , le score $s_i$ est calculé comme la différence normalisée entre l'item positif ( $p_i$ ) et l'item négatif ( $n_i$ ) :
$s_i = \frac{p_i - n_i}{4}$
Cela donne une valeur dans l'intervalle $[-1, +1]$ , où un score plus élevé indique un risque d'hallucination plus faible.
Indicateur de cohérence : Un indicateur $c_i = \frac{p_i + n_i}{4}$ est calculé pour détecter l'ambiguïté ou l'incohérence des jugements de l'évaluateur.
Score global (SHS) : Moyenne arithmétique des 5 scores de dimensions, normalisé dans $[-1, +1]$ (ou rescalé sur 0-100 pour une comparaison avec le SUS).

Validation Empirique

Une étude réelle a été menée avec 210 participants (guidés par 47 expérimentateurs formés). Les participants ont interagi avec des LLM via des scénarios incluant des questions vérifiables et des prompts ambigus, puis ont rempli le questionnaire SHS.

3. Résultats Clés

L'analyse statistique des données collectées démontre la robustesse psychométrique du SHS :

Cohérence Interne : Le coefficient alpha de Cronbach est de 0,87 (IC 95% : [0,84, 0,90]), dépassant largement le seuil de 0,70 requis pour une fiabilité acceptable.
Validité de Construct : Des corrélations significatives ( $p < 0,001$ ) ont été observées entre les dimensions (coefficients de Pearson variant de 0,42 à 0,72), confirmant que les dimensions sont liées mais non redondantes. La corrélation la plus forte existe entre l'exactitude factuelle et la fiabilité des sources ( $r=0,72$ ).
Cohérence des Paires : Les items positifs et négatifs au sein d'une même dimension montrent des corrélations fortes (de 0,65 à 0,79), validant la conception bipolaire.
Faisabilité et Clarté :
- 87,2 % des participants ont trouvé les questions compréhensibles.
- 83,0 % ont jugé les questions pertinentes pour l'évaluation des LLM.
- Le temps moyen de complétion était de 4,2 minutes.
- 66 % des expérimentateurs n'ont eu besoin d'aucune explication supplémentaire pour les participants.
Distribution des Réponses : Les réponses ne sont pas uniformes ni aléatoires, indiquant une utilisation réelle de l'échelle pour discriminer différents niveaux de fiabilité.

4. Contributions Principales

Premier instrument standardisé centré sur l'humain pour les hallucinations : Le SHS comble le vide entre les métriques automatiques rigides et les évaluations d'experts coûteuses.
Approche multidimensionnelle : Contrairement aux scores binaires ou unidimensionnels, le SHS permet de distinguer les types d'échecs (ex: erreur factuelle vs source inventée vs manque de réactivité).
Diagnostic intégré : La structure par paires d'items permet de détecter automatiquement les jugements ambigus ou incohérents des évaluateurs, servant d'outil de contrôle qualité.
Comparabilité : Le SHS est conçu pour être complémentaire aux échelles existantes comme le SUS (Utilisabilité) et le SCS (Causabilité/Explicabilité), offrant une vue holistique de l'expérience utilisateur (Fiabilité + Utilisabilité + Explicabilité).
Accessibilité : L'outil est léger, ne nécessite pas de vérité terrain (ground truth) externe ni de connaissances techniques approfondies, et est disponible sous forme de code Python et de calculateur web.

5. Signification et Impact

Le SHS représente une avancée significative pour le déploiement responsable de l'IA :

Pour les développeurs et chercheurs : Il offre un moyen rapide d'itérer sur les modèles et de surveiller les régressions liées aux hallucinations lors de mises à jour.
Pour les décideurs politiques et régulateurs : Il fournit un cadre structuré pour évaluer la fiabilité perçue des systèmes d'IA dans des contextes réels, au-delà des simples scores de benchmark.
Changement de paradigme : Il déplace l'accent de la seule "exactitude automatique" vers la "fiabilité perçue" et l'interaction humaine, reconnaissant que la confiance de l'utilisateur est aussi cruciale que la vérité factuelle brute dans les applications à haut risque.

En conclusion, le SHS se positionne comme un outil indispensable pour une évaluation hybride (humain + machine) des LLM, capable de capturer des nuances que les métriques purement techniques ignorent.