The System Hallucination Scale (SHS): A Minimal yet Effective Human-Centered Instrument for Evaluating Hallucination-Related Behavior in Large Language Models

Dit artikel introduceert de System Hallucination Scale (SHS), een lichtgewicht, mensgericht instrument dat, in navolging van bestaande psychometrische schalen, hallucinatiegerelateerd gedrag in grote taalmodellen evalueert vanuit het gebruikersperspectief en in een realistische studie met 210 deelnemers is gevalideerd als een betrouwbaar hulpmiddel voor systemontwikkeling en monitoring.

Heimo Müller, Dominik Steiger, Markus Plass, Andreas Holzinger

Gepubliceerd 2026-03-12
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer beleefde, slimme, maar soms wat dromerige assistent hebt. Hij kan prachtige verhalen vertellen, recepten bedenken en vragen beantwoorden. Maar soms, terwijl hij met volle overtuiging praat, verzint hij feiten die helemaal niet waar zijn. Hij zegt bijvoorbeeld dat de Eiffeltoren in Berlijn staat, of dat er een nieuwe soort pinguïn is ontdekt die van pizza houdt.

In de wereld van kunstmatige intelligentie (AI) noemen we dit hallucineren. Het is alsof de AI in een droomland leeft en denkt dat die droom de realiteit is.

Deze paper introduceert een nieuw hulpmiddel om dit gedrag te meten: de System Hallucination Scale (SHS). Laten we dit uitleggen alsof het een "kwaliteitscontrole" is voor die dromerige assistent.

1. Het Probleem: Waarom bestaande tests niet genoeg zijn

Tot nu toe keken experts vooral naar cijfers en benchmarks. Ze vroegen zich af: "Is het antwoord technisch correct?" of "Hoe snel is de AI?".
Maar dat is alsof je een restaurant beoordeelt alleen op basis van hoe snel het eten op tafel komt. Je ziet niet of het eten wel op smaak is, of de kok de ingrediënten heeft verzonnen, of de serveerder je belooft dat het vlees vers is terwijl het uit de vriezer komt.

De auteurs zeggen: "We moeten kijken naar hoe jij, de gebruiker, je voelt tijdens het gesprek." Voelt het antwoord betrouwbaar? Of voelt het alsof je naar een leugenaar luistert die heel zelfverzekerd praat?

2. De Oplossing: De SHS (Het "Droom-Testje")

De SHS is geen ingewikkelde computercode die automatisch fouten zoekt. Het is een vragenlijst voor mensen, net als de bekende "Systeem Gebruiksgemak Schaal" (SUS) die we gebruiken om te zeggen of een app makkelijk te bedienen is.

Maar in plaats van vragen over "gemak", vraagt de SHS over betrouwbaarheid.

De vragenlijst bestaat uit 10 simpele stellingen, verdeeld in 5 categorieën. Je kunt je dit voorstellen als een 5-voudige inspectie van de AI:

  1. Feitelijkheidscheck: "Zegt de AI de waarheid, of verzon hij dingen?"
    • Analogie: Kijkt de assistent naar zijn notitieboekje, of pakt hij uit zijn duim?
  2. Bronnencheck: "Kan ik controleren waar hij het vandaan heeft?"
    • Analogie: Als hij zegt "Volgens de krant...", laat hij dan de krant zien? Of zijn de bronnen verdwenen?
  3. Logicacheck: "Maakt zijn verhaal wel zin?"
    • Analogie: Als hij zegt "Ik ben gisteren naar de maan gegaan en heb daar een ijsje gegeten", klopt de logica niet.
  4. Vertrouwenscheck: "Probeer hij je niet te misleiden?"
    • Analogie: Soms zegt een leugenaar het met zo'n overtuigende stem dat je twijfelt. De SHS meet of de AI te zelfverzekerd is met foute info.
  5. Luistercheck: "Luistert hij als ik zeg 'Stop, dat is fout'?"
    • Analogie: Als je zegt "Nee, de Eiffeltoren is in Parijs", zegt hij dan "Oeps, sorry" of blijft hij volhouden dat hij in Berlijn staat?

3. Hoe werkt het in de praktijk?

Stel je voor dat je 210 mensen (zoals in het onderzoek) een gesprek laat voeren met een AI. Daarna krijgen ze deze korte vragenlijst. Ze moeten niet weten of de feiten echt waar zijn (dat is lastig voor iedereen), maar ze moeten aangeven hoe betrouwbaar het gesprek voelde.

  • De score: Je krijgt een getal.
    • Een hoge score betekent: "Deze AI is als een betrouwbare vriend; hij zegt wat hij weet en geeft toe als hij het niet weet."
    • Een lage score betekent: "Deze AI is als een dromerige kunstenaar; hij maakt prachtige verhalen, maar je kunt er geen feiten op bouwen."

4. Waarom is dit slim?

De auteurs hebben een slimme truc toegepast. Ze stelden elke vraag twee keer:

  • Eén keer positief: "De AI was betrouwbaar."
  • Eén keer negatief: "De AI verzon vaak dingen."

Dit is als een liefdesverklaring en een ruzie in één gesprek. Als iemand zegt "Ik hou van jou" (ja) en ook "Ik haat jou" (ja), dan is er iets mis met de antwoorden. Dit helpt om te zien of mensen de vragen goed begrijpen of dat ze willekeurig rondklikken.

5. Wat levert het op?

De test met 210 mensen liet zien dat dit werkt:

  • Mensen vonden de vragen makkelijk te begrijpen.
  • De resultaten waren consistent (als iemand de ene vraag goed beantwoordde, deed hij dat ook bij de andere).
  • Het helpt ontwikkelaars om hun AI te verbeteren. In plaats van alleen te kijken naar "snelheid", kunnen ze nu kijken: "Wordt onze AI minder dromerig als we de code aanpassen?"

Conclusie

De System Hallucination Scale (SHS) is een nieuwe, simpele manier om te zeggen: "Hoe goed is deze AI in het niet liegen?"

Het is geen magische detector die alle leugens automatisch opspelt. Het is meer een spiegel die de menselijke ervaring weerspiegelt. Het helpt ons te begrijpen of we kunnen vertrouwen op de slimme assistent aan de andere kant van het scherm, of dat we beter onze eigen notities moeten blijven controleren.

Kortom: Het is de "betrouwbaarheidstest" die we nodig hebben in een wereld vol slimme, maar soms dromerige computers.