The System Hallucination Scale (SHS): A Minimal yet Effective Human-Centered Instrument for Evaluating Hallucination-Related Behavior in Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer beleefde, slimme, maar soms wat dromerige assistent hebt. Hij kan prachtige verhalen vertellen, recepten bedenken en vragen beantwoorden. Maar soms, terwijl hij met volle overtuiging praat, verzint hij feiten die helemaal niet waar zijn. Hij zegt bijvoorbeeld dat de Eiffeltoren in Berlijn staat, of dat er een nieuwe soort pinguïn is ontdekt die van pizza houdt.

In de wereld van kunstmatige intelligentie (AI) noemen we dit hallucineren. Het is alsof de AI in een droomland leeft en denkt dat die droom de realiteit is.

Deze paper introduceert een nieuw hulpmiddel om dit gedrag te meten: de System Hallucination Scale (SHS). Laten we dit uitleggen alsof het een "kwaliteitscontrole" is voor die dromerige assistent.

1. Het Probleem: Waarom bestaande tests niet genoeg zijn

Tot nu toe keken experts vooral naar cijfers en benchmarks. Ze vroegen zich af: "Is het antwoord technisch correct?" of "Hoe snel is de AI?".
Maar dat is alsof je een restaurant beoordeelt alleen op basis van hoe snel het eten op tafel komt. Je ziet niet of het eten wel op smaak is, of de kok de ingrediënten heeft verzonnen, of de serveerder je belooft dat het vlees vers is terwijl het uit de vriezer komt.

De auteurs zeggen: "We moeten kijken naar hoe jij, de gebruiker, je voelt tijdens het gesprek." Voelt het antwoord betrouwbaar? Of voelt het alsof je naar een leugenaar luistert die heel zelfverzekerd praat?

2. De Oplossing: De SHS (Het "Droom-Testje")

De SHS is geen ingewikkelde computercode die automatisch fouten zoekt. Het is een vragenlijst voor mensen, net als de bekende "Systeem Gebruiksgemak Schaal" (SUS) die we gebruiken om te zeggen of een app makkelijk te bedienen is.

Maar in plaats van vragen over "gemak", vraagt de SHS over betrouwbaarheid.

De vragenlijst bestaat uit 10 simpele stellingen, verdeeld in 5 categorieën. Je kunt je dit voorstellen als een 5-voudige inspectie van de AI:

Feitelijkheidscheck: "Zegt de AI de waarheid, of verzon hij dingen?"
- Analogie: Kijkt de assistent naar zijn notitieboekje, of pakt hij uit zijn duim?
Bronnencheck: "Kan ik controleren waar hij het vandaan heeft?"
- Analogie: Als hij zegt "Volgens de krant...", laat hij dan de krant zien? Of zijn de bronnen verdwenen?
Logicacheck: "Maakt zijn verhaal wel zin?"
- Analogie: Als hij zegt "Ik ben gisteren naar de maan gegaan en heb daar een ijsje gegeten", klopt de logica niet.
Vertrouwenscheck: "Probeer hij je niet te misleiden?"
- Analogie: Soms zegt een leugenaar het met zo'n overtuigende stem dat je twijfelt. De SHS meet of de AI te zelfverzekerd is met foute info.
Luistercheck: "Luistert hij als ik zeg 'Stop, dat is fout'?"
- Analogie: Als je zegt "Nee, de Eiffeltoren is in Parijs", zegt hij dan "Oeps, sorry" of blijft hij volhouden dat hij in Berlijn staat?

3. Hoe werkt het in de praktijk?

Stel je voor dat je 210 mensen (zoals in het onderzoek) een gesprek laat voeren met een AI. Daarna krijgen ze deze korte vragenlijst. Ze moeten niet weten of de feiten echt waar zijn (dat is lastig voor iedereen), maar ze moeten aangeven hoe betrouwbaar het gesprek voelde.

De score: Je krijgt een getal.
- Een hoge score betekent: "Deze AI is als een betrouwbare vriend; hij zegt wat hij weet en geeft toe als hij het niet weet."
- Een lage score betekent: "Deze AI is als een dromerige kunstenaar; hij maakt prachtige verhalen, maar je kunt er geen feiten op bouwen."

4. Waarom is dit slim?

De auteurs hebben een slimme truc toegepast. Ze stelden elke vraag twee keer:

Eén keer positief: "De AI was betrouwbaar."
Eén keer negatief: "De AI verzon vaak dingen."

Dit is als een liefdesverklaring en een ruzie in één gesprek. Als iemand zegt "Ik hou van jou" (ja) en ook "Ik haat jou" (ja), dan is er iets mis met de antwoorden. Dit helpt om te zien of mensen de vragen goed begrijpen of dat ze willekeurig rondklikken.

5. Wat levert het op?

De test met 210 mensen liet zien dat dit werkt:

Mensen vonden de vragen makkelijk te begrijpen.
De resultaten waren consistent (als iemand de ene vraag goed beantwoordde, deed hij dat ook bij de andere).
Het helpt ontwikkelaars om hun AI te verbeteren. In plaats van alleen te kijken naar "snelheid", kunnen ze nu kijken: "Wordt onze AI minder dromerig als we de code aanpassen?"

Conclusie

De System Hallucination Scale (SHS) is een nieuwe, simpele manier om te zeggen: "Hoe goed is deze AI in het niet liegen?"

Het is geen magische detector die alle leugens automatisch opspelt. Het is meer een spiegel die de menselijke ervaring weerspiegelt. Het helpt ons te begrijpen of we kunnen vertrouwen op de slimme assistent aan de andere kant van het scherm, of dat we beter onze eigen notities moeten blijven controleren.

Kortom: Het is de "betrouwbaarheidstest" die we nodig hebben in een wereld vol slimme, maar soms dromerige computers.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "The System Hallucination Scale (SHS): A Minimal yet Effective Human-Centered Instrument for Evaluating Hallucination-Related Behavior in Large Language Models" in het Nederlands.

Probleemstelling

Grote Taalmodellen (LLM's) genereren steeds vaker vloeiende en overtuigende teksten die echter feitelijk onjuist, misleidend of volledig verzonnen zijn. Dit fenomeen, bekend als hallucinatie, vormt een fundamenteel probleem voor de betrouwbaarheid en het vertrouwen in AI-systemen, vooral in kritieke domeinen zoals gezondheidszorg, recht en wetenschap.

Bestaande evaluatiemethoden hebben echter belangrijke beperkingen:

Focus op prestatie: De meeste benchmarks richten zich op kwantificeerbare metrics zoals nauwkeurigheid of efficiëntie (bijv. BLEU, ROUGE), wat de complexiteit van real-world deployment reduceert.
Gebrek aan mensgerichte instrumenten: Er ontbreekt een snel, gestructureerd en mensgericht instrument om hallucinaties te beoordelen vanuit het perspectief van de gebruiker.
Automatische detectie: Automatische detectoren zijn vaak moeilijk te generaliseren en missen subtiele fouten die wel degelijk het vertrouwen van de gebruiker ondermijnen.
Definitie: De term "hallucinatie" is in de AI-evaluatie niet eenduidig gedefinieerd en wordt vaak verward met adversarial errors of fouten in de trainingdata.

Methodologie: De System Hallucination Scale (SHS)

De auteurs introduceren de System Hallucination Scale (SHS), een lichtgewicht, mensgericht meetinstrument dat is geïnspireerd op bestaande psychometrische tools zoals de System Usability Scale (SUS) en de System Causability Scale (SCS).

Ontwerp en Structuur:

Formaat: Een vragenlijst met 10 items, geschaald op een 5-punts Likert-schaal.
Dimensies: De items zijn gegroepeerd in vijf conceptuele dimensies, waarbij elke dimensie wordt vertegenwoordigd door één positief en één negatief geformuleerd item (om antwoordbias te verminderen):
1. Feitelijke Nauwkeurigheid (Factual Accuracy): Is de informatie correct en niet verzonnen?
2. Betrouwbaarheid van Bronnen (Source Reliability): Zijn bronnen traceerbaar of verzonnen?
3. Logische Coherentie (Logical Coherence): Is de redenering logisch gestructureerd of ongefundeerd?
4. Misleidende Presentatie (Deceptiveness): Worden fouten zelfverzekerd en misleidend gepresenteerd?
5. Responsiviteit op Gebruikersrichtlijnen (Responsiveness to Guidance): Reageert het model correct op correctieve prompts?
Scoring:
- Antwoorden worden gecodeerd als $\{-2, -1, 0, +1, +2\}$ .
- Per dimensie wordt een score $s_i$ berekend als de genormaliseerde verschil tussen het positieve ( $p_i$ ) en negatieve ( $n_i$ ) item: $s_i = (p_i - n_i) / 4$ .
- De totale SHS-score ligt tussen -1 (hoog hallucinatie-risico) en +1 (laag risico).
- Er wordt ook een consistentie-indicator ( $c_i$ ) berekend om twijfel of tegenstrijdige antwoorden van de beoordelaar te detecteren.

Validatiestudie:

Opzet: Een real-world evaluatie met 210 deelnemers (onder leiding van 47 getrainde experimentatoren).
Proces: Deelnemers voerden interacties uit met LLM's (met zowel verifieerbare als misleidende prompts) en vulden direct daarna de SHS-vragenlijst in.
Doel: Beoordelen van de duidelijkheid, de interne consistentie en de bruikbaarheid van de schaal, niet het vergelijken van specifieke modellen.

Belangrijkste Resultaten

De empirische evaluatie bevestigt de psychometrische kwaliteit en bruikbaarheid van de SHS:

Interne Consistentie: De Cronbach's $\alpha$ bedroeg 0,87 (95% CI: [0,84, 0,90]), wat wijst op een hoge betrouwbaarheid en dat de items een coherent onderliggend construct meten.
Construct Validiteit: Er werden significante positieve correlaties gevonden tussen de vijf dimensies ( $p < 0,001$ ), variërend van $r=0,42$ tot $r=0,72$ . Dit ondersteunt de multidimensionale structuur zonder dat de dimensies volledig redundant zijn.
Paired-Item Consistentie: De correlatie tussen positieve en negatieve items binnen dezelfde dimensie was sterk (bijv. Feitelijke Nauwkeurigheid: $r=0,79$ ), wat aantoont dat deelnemers de richting van de vragen begrepen en niet willekeurig antwoordden.
Gebruiksgemak:
- 87,2% van de deelnemers vond de vragen begrijpelijk.
- 93,6% vond de antwoordopties (Likert-schaal) geschikt.
- De gemiddelde tijd om de vragenlijst in te vullen was slechts 4,2 minuten.
- 66% van de experimentatoren gaf aan dat geen extra uitleg nodig was.
Differentiatie: De schaal slaagde erin om gebruikers in staat te stellen onderscheid te maken tussen verschillende soorten hallucinaties (bijv. feitelijke fouten vs. verzonnen bronnen vs. misleidende zekerheid), wat automatische metrics vaak niet doen.

Kernbijdragen

Nieuw Instrument: Introductie van de SHS als het eerste gestandaardiseerde, mensgerichte instrument specifiek voor het meten van hallucinatie-gedrag in LLM's.
Mens-Centraal: Het instrument focust op de perceptie van betrouwbaarheid door de gebruiker in realistische interacties, in plaats van alleen op objectieve feitelijke juistheid.
Multidimensionale Analyse: In tegenstelling tot veel benchmarks die een binair resultaat of één score geven, biedt SHS vijf inzichtelijke dimensies die specifieke faalmodi identificeren.
Integriteitscontrole: De opzet met gepaarde items (positief/negatief) fungeert als een ingebouwde kwaliteitscontrole voor de beoordelaar zelf (via de consistentie-indicator).
Open Source: De auteurs bieden een volledige Python-implementatie en een interactieve webcalculator aan voor reproduceerbaarheid.

Significantie en Toekomst

De SHS vult een kritieke leemte in het landschap van AI-evaluatie. Waar technische benchmarks (zoals TruthfulQA of FActScore) zich richten op geautomatiseerde detectie en feitelijke verificatie, biedt de SHS een complementaire, gebruikersgerichte benadering.

Toepassing: De schaal is ideaal voor iteratieve systeemontwikkeling, monitoring van implementaties en het vergelijken van modellen in contexten waar "vertrouwen" en "interactie" cruciaal zijn.
Complementariteit: De auteurs raden aan de SHS samen met SUS (bruikbaarheid) en SCS (uitlegbaarheid) in te zetten voor een holistische evaluatie van AI-systemen.
Toekomst: Verdere validatie over verschillende talen en domeinen, en integratie in hybride evaluatiepijplijnen waarbij menselijke oordelen worden gebruikt om geautomatiseerde detectie te kalibreren.

Kortom, de SHS biedt een praktische, snelle en wetenschappelijk onderbouwde methode om de "menselijke kant" van hallucinaties in LLM's te meten en te monitoren.

The System Hallucination Scale (SHS): A Minimal yet Effective Human-Centered Instrument for Evaluating Hallucination-Related Behavior in Large Language Models

1. Het Probleem: Waarom bestaande tests niet genoeg zijn

2. De Oplossing: De SHS (Het "Droom-Testje")

3. Hoe werkt het in de praktijk?

4. Waarom is dit slim?

5. Wat levert het op?

Conclusie

Probleemstelling

Methodologie: De System Hallucination Scale (SHS)

Belangrijkste Resultaten

Kernbijdragen

Significantie en Toekomst

Meer zoals dit

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models