The System Hallucination Scale (SHS): A Minimal yet Effective Human-Centered Instrument for Evaluating Hallucination-Related Behavior in Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen sehr gut ausgebildeten, aber manchmal etwas verwirrten Assistenten. Er spricht fließend, klingt extrem selbstbewusst und kann komplexe Geschichten erzählen. Aber manchmal erfindet er Fakten, zitiert Bücher, die es gar nicht gibt, oder behauptet Dinge, die einfach nicht stimmen. Man nennt das im KI-Jargon „Halluzination".

Das Problem: Bisher gab es keine einfache Methode, um zu messen, wie sehr man diesem Assistenten trauen kann, ohne ihn wie einen Roboter zu testen. Die Forscher um Heimo Müller und Andreas Holzinger haben daher einen neuen Maßstab entwickelt: die System Hallucination Scale (SHS).

Hier ist die Erklärung der Studie in einfachen Worten, mit ein paar bildhaften Vergleichen:

1. Das Problem: Der „zuverlässig klingende Lügner"

Stellen Sie sich einen KI-Assistenten wie einen Touristenführer in einer fremden Stadt vor. Er kennt sich super aus, redet schnell und überzeugt. Aber manchmal zeigt er Ihnen ein Denkmal, das gar nicht existiert, oder erzählt eine Geschichte über eine Person, die nie gelebt hat.
Bisher haben Wissenschaftler versucht, diesen Führer zu testen, indem sie ihm Fragen stellten und prüften, ob die Antworten mathematisch korrekt waren (wie ein strenger Lehrer). Aber das sagt nichts darüber aus, wie sich der Führer für Sie anfühlt. Fühlt er sich vertrauenswürdig? Können Sie ihn korrigieren, wenn er falsch liegt?

2. Die Lösung: Ein „Vertrauens-Thermometer"

Die Forscher haben einen neuen Test entwickelt, der wie ein Vertrauens-Thermometer funktioniert. Statt zu fragen „Ist die Antwort 100 % richtig?", fragen sie: „Wie fühlte sich die Antwort für dich an?"

Der Test besteht aus 10 einfachen Fragen, die man wie ein Fragebogen beantwortet (von „stimme gar nicht zu" bis „stimme voll zu"). Er ist inspiriert von bekannten Tests für Benutzerfreundlichkeit (wie SUS), passt sich aber speziell an das Problem der KI-Halluzinationen an.

Der Test misst fünf wichtige Dinge, die man sich wie Fünf-Sinne vorstellen kann:

Fakten-Check: Waren die Informationen wahr oder erfunden?
Quellen-Check: Hat der Assistent gesagt, woher er die Infos hat, oder hat er sich etwas ausgedacht?
Logik-Check: Hat der Gedankengang Sinn ergeben oder war er wirr?
Tarnungs-Check: Hat der Assistent falsche Infos so selbstbewusst präsentiert, dass man sie kaum durchschaut?
Korrektur-Check: Wenn Sie sagten: „Das ist falsch, bitte nochmal", hat er zugehört oder weitergelogen?

3. Der große Test: 210 Menschen als Prüfer

Die Forscher haben diesen Test mit 210 echten Menschen ausprobiert. Diese Menschen haben mit einer KI gesprochen, Fragen gestellt und dann den Fragebogen ausgefüllt.
Das Ergebnis war sehr positiv:

Der Test war einfach zu verstehen (fast alle fanden die Fragen klar).
Er war schnell (in etwa 4 Minuten fertig).
Er war zuverlässig: Wenn jemand eine Frage mit „Ja" beantwortete, passte das auch zu den anderen Fragen. Das zeigt, dass der Test wirklich misst, was er soll.

4. Warum ist das besser als die alten Methoden?

Bisherige Tests waren oft wie ein Lichtschalter: Entweder die KI ist „falsch" oder „richtig".
Der neue SHS-Test ist wie ein Dimmer-Schalter. Er zeigt nicht nur an, ob etwas falsch ist, sondern wie falsch es ist und wo das Problem liegt.

Hat die KI nur eine Quelle erfunden? (Problem bei Punkt 2)
War sie einfach nur verwirrt? (Problem bei Punkt 3)
Oder hat sie Sie absichtlich in die Irre geführt? (Problem bei Punkt 4)

Das ist wichtig, weil es Entwicklern hilft zu wissen, was sie an der KI verbessern müssen.

5. Das Fazit: Ein Werkzeug für den Alltag

Die SHS ist kein automatischer Scanner, der im Hintergrund läuft. Sie ist ein Werkzeug für Menschen, um zu bewerten, wie gut sie einer KI vertrauen können.
Stellen Sie sich vor, Sie kaufen ein Auto. Früher haben Sie nur auf die PS-Zahl geschaut (die technische Leistung). Mit dem SHS-Test schauen Sie auch auf das Fahrgefühl, die Bremsen und ob der Fahrer Sie versteht.

Zusammenfassend:
Die Forscher haben einen einfachen, schnellen und menschlichen Test entwickelt, der uns hilft zu verstehen, wann eine KI „halluziniert" und wann wir ihr trauen können. Es ist wie ein Frühwarnsystem für Vertrauen, das uns hilft, KI sicherer und verständlicher zu machen.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „The System Hallucination Scale (SHS)" auf Deutsch:

1. Problemstellung

Große Sprachmodelle (LLMs) zeichnen sich durch fließende und persuasive Textgenerierung aus, neigen jedoch zu „Halluzinationen". Dabei handelt es sich um Inhalte, die faktisch falsch, irreführend oder frei erfunden sind, obwohl sie intern kohärent wirken.

Lücke in der aktuellen Forschung: Bestehende Evaluationsmethoden konzentrieren sich primär auf automatische Metriken (z. B. Genauigkeit, BLEU/ROUGE-Scores) oder binäre Klassifizierungen (Halluzination ja/nein). Diese Ansätze erfassen oft nicht die Nuancen der Benutzerwahrnehmung, die Art und Weise, wie Fehler in realen Interaktionen auftreten, oder die Fähigkeit des Nutzers, das System durch Nachfragen zu korrigieren.
Fehlendes Instrument: Es existiert kein leichtgewichtiges, standardisiertes und menschenzentriertes Messinstrument, das die Wahrnehmung von Halluzinationen durch den Nutzer strukturiert und schnell erfassen kann, ähnlich wie der System Usability Scale (SUS) für Usability.

2. Methodik: Die System Hallucination Scale (SHS)

Die Autoren stellen die SHS als ein menschenzentriertes Messinstrument vor, das auf psychometrischen Prinzipien basiert und von etablierten Skalen wie SUS und SCS inspiriert ist.

Struktur: Die SHS besteht aus 10 Items auf einer 5-Punkte-Likert-Skala.
Dimensionen: Die Items sind in 5 konzeptionelle Dimensionen unterteilt, wobei jede Dimension durch ein positiv und ein negativ formuliertes Item repräsentiert wird (Paar-Struktur zur Reduzierung von Antwortverzerrungen):
1. Faktische Genauigkeit (Factual Accuracy): Richtigkeit und Abwesenheit von Fälschungen.
2. Quellenzuverlässigkeit (Source Reliability): Nachverfolgbarkeit und Verifizierbarkeit von Quellen.
3. Logische Kohärenz (Logical Coherence): Strukturierung der Argumentation und logische Schlüssigkeit.
4. Irreführung durch Präsentation (Deceptiveness): Wie überzeugend oder täuschend falsche Informationen präsentiert werden.
5. Reagibilität auf Anleitung (Responsiveness to Guidance): Fähigkeit des Modells, auf Korrekturhinweise zu reagieren und Fehler zu beheben.
Berechnung (Scoring):
- Antworten werden von -2 (stark ablehnen) bis +2 (stark zustimmen) kodiert.
- Der Dimensionswert $s_i$ wird als normalisierte Differenz zwischen positivem ( $p_i$ ) und negativem Item ( $n_i$ ) berechnet: $s_i = (p_i - n_i) / 4$ .
- Der Gesamtwert (SHS) liegt im Bereich $[-1, +1]$ , wobei +1 eine geringe Halluzinationswahrscheinlichkeit und -1 ein hohes Risiko anzeigt.
- Zusätzlich wird ein Konsistenzindikator ( $c_i$ ) berechnet, um unsichere oder widersprüchliche Bewertungen zu diagnostizieren.
Implementierung: Es wird ein vollständiger Python-Referenzcode und ein interaktiver Web-Rechner bereitgestellt.

3. Empirische Evaluation

Die Validierung der SHS erfolgte in einer realen Studie mit 210 Teilnehmern (unter Anleitung von 47 Experimentatoren).

Studiendesign: Teilnehmer interagierten mit LLMs, wobei sie sowohl klare Fragen als auch mehrdeutige Prompts erhielten, um Halluzinationen zu provozieren. Unmittelbar danach füllten sie den SHS-Fragebogen aus.
Ergebnisse zur Akzeptanz:
- 87,2 % der Teilnehmer fanden die Fragen verständlich.
- 83,0 % bewerteten die Relevanz für die LLM-Evaluation als hoch.
- 93,6 % hielten die Antwortoptionen für angemessen.
- Die durchschnittliche Bearbeitungszeit betrug nur 4,2 Minuten.
Psychometrische Analyse:
- Interne Konsistenz: Cronbachs $\alpha$ betrug 0,87, was eine hohe Zuverlässigkeit des Instruments bestätigt.
- Konstruktvalidität: Signifikante positive Korrelationen ( $p < 0,001$ ) zwischen den Dimensionen (z. B. Faktische Genauigkeit und Quellenzuverlässigkeit korrelieren mit $r=0,72$ ) belegen, dass die Dimensionen zusammenhängen, aber nicht redundant sind.
- Item-Konsistenz: Starke Korrelationen zwischen den gepaarten positiven und negativen Items innerhalb jeder Dimension bestätigen das Design.

4. Wichtige Beiträge

Neues Messinstrument: Einführung der SHS als erstes leichtgewichtiges, multidimensionales Instrument zur Erfassung von Halluzinationen aus der Nutzerperspektive.
Mehrdimensionalität: Im Gegensatz zu binären Benchmarks (z. B. TruthfulQA) differenziert die SHS zwischen verschiedenen Fehlermodi (Fakten, Quellen, Logik, Irreführung, Steuerbarkeit).
Diagnostische Konsistenz: Durch die Paar-Struktur der Items bietet die SHS einen eingebauten Mechanismus zur Qualitätskontrolle, um unsichere oder inkonsistente Bewertungen zu erkennen.
Vergleichbarkeit: Die Studie zeigt, dass die SHS komplementär zu SUS (Usability) und SCS (Erklärbarkeit) ist und somit eine ganzheitliche Bewertung von KI-Systemen ermöglicht.
Offene Verfügbarkeit: Alle Materialien, Daten und der Code sind öffentlich zugänglich, um Reproduzierbarkeit und Adoption zu fördern.

5. Bedeutung und Ausblick

Die SHS füllt eine kritische Lücke in der KI-Evaluation, indem sie den Fokus von rein technischen Metriken auf die wahrgenommene Zuverlässigkeit im realen Einsatz verschiebt.

Anwendungsbereiche: Das Instrument eignet sich für iterative Systementwicklung, Monitoring von Produktions-LLMs und die Bewertung von Systemen in hochriskanten Domänen (Medizin, Recht), wo Vertrauen und Nachvollziehbarkeit entscheidend sind.
Zukunft: Die Autoren planen die Validierung über verschiedene Sprachen und Domänen hinweg sowie die Integration der SHS in hybride Evaluationspipelines, die menschliches Urteil mit automatisierten Detektionsmethoden kombinieren.

Zusammenfassend bietet die SHS einen praktischen, wissenschaftlich fundierten und effizienten Weg, um das „Blindfeld" der Halluzinationen aus der Sicht des Endnutzers zu beleuchten und damit die Entwicklung vertrauenswürdiger KI-Systeme zu unterstützen.

The System Hallucination Scale (SHS): A Minimal yet Effective Human-Centered Instrument for Evaluating Hallucination-Related Behavior in Large Language Models

1. Das Problem: Der „zuverlässig klingende Lügner"

2. Die Lösung: Ein „Vertrauens-Thermometer"

3. Der große Test: 210 Menschen als Prüfer

4. Warum ist das besser als die alten Methoden?

5. Das Fazit: Ein Werkzeug für den Alltag

1. Problemstellung

2. Methodik: Die System Hallucination Scale (SHS)

3. Empirische Evaluation

4. Wichtige Beiträge

5. Bedeutung und Ausblick

Mehr davon

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models