Disentangling Prompt Element Level Risk Factors for Hallucinations and Omissions in Mental Health LLM Responses

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen sehr intelligenten, aber manchmal etwas verwirrten digitalen Berater. Dieser Berater ist ein Künstlicher Intelligenz-Modell (LLM), das speziell für psychische Gesundheit trainiert wurde. Wenn Sie ihm eine Frage stellen, versucht er, eine hilfreiche Antwort zu geben. Aber was passiert, wenn Sie ihm eine Frage stellen, die voller Emotionen, Verwirrung oder langer Geschichten steckt?

Diese Studie von Forschern der Vanderbilt University und anderen Institutionen hat genau das untersucht. Sie wollten herausfinden, wann dieser digitale Berater falsche Dinge erfindet (Halluzinationen) oder wichtige Dinge vergisst (Auslassungen).

Hier ist die einfache Erklärung der Studie, mit ein paar bildhaften Vergleichen:

1. Das Werkzeug: Der "UTCO-Baukasten"

Die Forscher haben ein neues System namens UTCO entwickelt. Stellen Sie sich das wie einen Baukasten für Fragen vor. Jede Frage besteht aus vier Bausteinen:

U (User): Wer fragt? (z. B. ein besorgter Vater, eine gestresste Studentin).
T (Topic): Worum geht es? (z. B. Depression, Angst, Suizidgedanken).
C (Context): Wie ist die Situation? (z. B. eine lange, verworrene Geschichte aus einem Online-Forum).
O (Tone): Wie klingt die Frage? (z. B. verzweifelt, wütend, hoffnungslos).

Die Forscher haben über 2.000 Fragen mit diesem Baukasten gebaut, um den KI-Berater gezielt zu testen. Sie haben dabei immer nur einen Baustein verändert, während die anderen gleich blieben, um genau zu sehen, welcher Teil das Problem verursacht.

2. Die zwei großen Fehlerarten

Die Studie untersuchte zwei Arten von Fehlern, die besonders gefährlich sein können:

Die "Erfinder" (Halluzinationen): Das ist, als würde der KI-Berater Dinge erfinden, die nicht wahr sind. Er sagt vielleicht: "Nehmen Sie dieses Medikament, das hilft bei allem," obwohl es gar nicht existiert. Das passiert in dieser Studie in etwa 6,5 % der Fälle.
Die "Vergesslichen" (Auslassungen): Das ist das größere Problem. Der Berater antwortet zwar freundlich und klingt kompetent, aber er vergisst lebenswichtige Informationen. Wenn jemand sagt: "Ich fühle mich so schlecht, ich könnte mir wehtun," und der KI-Berater antwortet mit allgemeinen Ratschlägen, aber vergisst, die Notrufnummer oder eine Krisen-Hilfe zu nennen, ist das eine Auslassung. Das passierte in 13,2 % der Fälle – also doppelt so oft wie das Erfinden von Fakten.

3. Die überraschende Entdeckung: Nicht wer, sondern wie

Man könnte denken: "Vielleicht macht die KI mehr Fehler, wenn die Frage von einer bestimmten Person kommt (z. B. von einem Teenager oder einer älteren Person)."
Aber: Die Studie hat gezeigt, dass wer fragt, kaum eine Rolle spielt. Wenn man die anderen Faktoren gleichhält, macht die KI mit allen Personen fast gleich viele Fehler.

Der wahre Auslöser für Fehler ist wie die Frage gestellt wird:

Die "Lange, verworrene Geschichte" (Kontext): Wenn die Frage sehr lang ist, viele Details enthält und wie eine echte, emotionale Geschichte aus dem echten Leben klingt (nicht wie eine kurze, trockene Prüfungsfrage), dann macht die KI mehr Fehler.
Die "Emotionale Welle" (Ton): Wenn die Frage voller Verzweiflung, Angst oder Hoffnungslosigkeit steckt, gerät die KI ins Wanken.

Die Analogie: Stellen Sie sich die KI wie einen Koch vor.

Wenn Sie ihm eine kurze, klare Bestellung geben ("Ein Burger, ohne Zwiebeln"), macht er fast immer alles richtig.
Wenn Sie ihm aber eine lange, emotionale Geschichte erzählen ("Ich habe heute so einen schlechten Tag, mein Hund ist gestorben, und ich habe Angst, dass mein Chef mich feuert, also bring mir bitte etwas, das mich tröstet, aber ich weiß nicht mal, was ich mag..."), dann wird der Koch verwirrt. Er vergisst vielleicht, dass er kein Fleisch hat (Auslassung), oder er erfindet ein Rezept, das gar nicht existiert (Halluzination), nur um die Geschichte zu Ende zu erzählen.

4. Was bedeutet das für uns?

Die wichtigste Botschaft der Studie ist: Wir müssen aufhören, KI-Systeme nur mit kurzen, trockenen Testfragen zu prüfen.

In der echten Welt stellen Menschen ihre Fragen nicht wie in einem Quiz. Sie erzählen lange Geschichten, sind emotional und manchmal verwirrt. Wenn wir KI-Systeme nur mit kurzen Fragen testen, denken wir, sie sind sicher. Aber in der echten Welt, besonders bei Krisen (Suizidgedanken), vergessen sie oft die wichtigsten Sicherheitsinformationen.

Die Lösung:

Wir müssen KI-Systeme mit langen, emotionalen und komplexen Geschichten testen (Stresstests).
Wir müssen sicherstellen, dass die KI auch dann sichere Informationen (wie Notrufnummern) liefert, wenn die Frage nicht explizit danach fragt.
Die KI sollte lernen, bei verwirrten oder emotionalen Fragen erst nachzufragen, anstatt einfach eine Antwort zu erfinden oder wichtige Dinge zu übersehen.

Fazit

Dieser digitale Berater ist ein mächtiges Werkzeug, aber er ist noch nicht perfekt. Er funktioniert gut bei klaren, kurzen Fragen. Sobald es aber um echte menschliche Not, lange Geschichten und starke Emotionen geht, neigt er dazu, wichtige Dinge zu vergessen. Die Studie sagt uns: Um ihn sicher zu machen, müssen wir ihn so trainieren und testen, wie echte Menschen wirklich sprechen – mit all ihrer Verwirrung und ihren Gefühlen.

Disentangling Prompt Element Level Risk Factors for Hallucinations and Omissions in Mental Health LLM Responses

1. Das Werkzeug: Der "UTCO-Baukasten"

2. Die zwei großen Fehlerarten

3. Die überraschende Entdeckung: Nicht wer, sondern wie

4. Was bedeutet das für uns?

Fazit

1. Problemstellung

2. Methodik

3. Wichtige Ergebnisse

4. Hauptbeiträge

5. Bedeutung und Implikationen

Disentangling Prompt Element Level Risk Factors for Hallucinations and Omissions in Mental Health LLM Responses

1. Das Werkzeug: Der "UTCO-Baukasten"

2. Die zwei großen Fehlerarten

3. Die überraschende Entdeckung: Nicht wer, sondern wie

4. Was bedeutet das für uns?

Fazit

1. Problemstellung

2. Methodik

3. Wichtige Ergebnisse

4. Hauptbeiträge

5. Bedeutung und Implikationen

Mehr davon

ASCAT: An Arabic Scientific Corpus and Benchmark for Advanced Translation Evaluation

Semantic Shifts of Psychological Concepts in Scientific and Popular Media Discourse: A Distributional Semantics Analysis of Russian-Language Corpora

Detecting Abnormal User Feedback Patterns through Temporal Sentiment Aggregation

Phonological Fossils: Machine Learning Detection of Non-Mainstream Vocabulary in Sulawesi Basic Lexicon

OptiMer: Optimal Distribution Vector Merging Is Better than Data Mixing for Continual Pre-Training