Evaluation format, not model capability, drives triage failure in the assessment of consumer health AI

Each language version is independently generated for its own context, not a direct translation.

Titel: Warum der Test schief lief – oder: Warum KI im Gesundheitswesen nicht wie in der Schule geprüft werden sollte

Stellen Sie sich vor, Sie wollen testen, wie gut ein neuer Koch kochen kann. Aber statt ihn in einer echten Küche mit echten Gästen zu beobachten, setzen Sie ihn in einen Raum, in dem er nur eine einzige, sehr seltsame Aufgabe hat: Er muss eine Multiple-Choice-Prüfung schreiben.

Die Frage lautet: „Wenn Sie nur diese eine Zeile über den Gast lesen dürfen, keine Fragen stellen dürfen und Ihre Antwort muss aus genau einem der vier Buchstaben A, B, C oder D bestehen – was würden Sie tun?"

Der Koch antwortet vielleicht: „Ich würde dem Gast sofort ins Krankenhaus schicken, er hat eine lebensgefährliche Allergie!" Aber da er gezwungen ist, nur einen Buchstaben zu wählen und keine Erklärung abzugeben, markiert er aus Versehen „C: Warten und abwarten".

Das ist genau das, was diese neue Studie über KI im Gesundheitswesen herausgefunden hat.

Das große Missverständnis

Ein anderes Forschungsteam hatte vor kurzem behauptet, dass KI-Chatbots (wie ChatGPT Health) in 51,6 % der Fälle zu gefährlich sind, weil sie Notfälle übersehen. Die Medien waren alarmiert: „KI ist zu gefährlich für die Gesundheit!"

Die Autoren dieser neuen Studie (Fraile Navarro, Magrabi und Coiera) haben sich gedacht: „Moment mal. Das klingt, als hätten wir den Koch in der falschen Umgebung getestet."

Sie haben fünf der fortschrittlichsten KI-Modelle getestet, aber unter zwei verschiedenen Bedingungen:

Der „Schul-Test" (wie im Original): Die KI bekam eine medizinische Aufgabe, durfte aber keine Fragen stellen, musste ihre Antwort auf einen Buchstaben (A/B/C/D) beschränken und durfte kein eigenes Wissen nutzen.
Der „echte Patient" (natürlich): Die KI bekam eine Nachricht, so wie sie ein echter Mensch sie tippen würde: etwas unscharf, umgangssprachlich, vielleicht mit Unsicherheiten. Und die KI durfte frei antworten, Fragen stellen und erklären, was sie denkt.

Das Ergebnis: Der Test war das Problem, nicht die KI

Das Ergebnis war verblüffend:

Im „Schul-Test" sah es so aus, als würde die KI viele Notfälle übersehen.
Im „echten Patient"-Test wurde die KI plötzlich viel besser. Die Treffsicherheit stieg um fast 7 Prozentpunkte.

Die wichtigste Erkenntnis:
Der Hauptgrund für die „Fehlschläge" war nicht, dass die KI dumm ist. Es war der Zwang, nur einen Buchstaben zu wählen.

Stellen Sie sich vor, ein Arzt sagt zu einem Patienten: „Ich denke, Sie brauchen sofort eine Notaufnahme!" Aber der Arzt ist gezwungen, auf einem Fragebogen nur ein Häkchen bei „Warten" zu setzen, weil die Formulare so dumm sind. Würden Sie sagen, der Arzt sei inkompetent? Nein! Das Formular ist das Problem.

Genauso war es bei der KI:

Wenn die KI frei reden durfte, sagte sie: „Das klingt nach einem Asthma-Anfall, bitte gehen Sie sofort ins Krankenhaus!"
Wenn sie gezwungen wurde, nur einen Buchstaben zu wählen, rutschte sie oft in die falsche Kategorie, obwohl sie im Kopf das Richtige wusste.

Ein konkretes Beispiel: Der Asthma-Anfall

Bei einem der schlimmsten Fälle (Asthma) sah es im strengen Test so aus, als würde die KI in 52 % der Fälle versagen.
Aber als man den KI-Modellen erlaubte, frei zu antworten (wie im echten Leben), stieg die Erfolgsrate auf 80 %.

Einige Modelle (wie Gemini) versagten im „Buchstaben-Test" komplett (0 %), schafften es aber im „freien Gespräch" zu 100 %. Sie sagten im Text ganz klar: „Notfall!", aber das Test-System zählte es als Fehler, weil der Buchstabe nicht passte.

Was bedeutet das für uns?

Die Studie sagt uns etwas sehr Wichtiges:

Man kann KI nicht wie einen Schüler prüfen. Wenn Sie einen KI-Chatbot testen wollen, müssen Sie ihn so testen, wie echte Menschen ihn nutzen: mit freiem Text, mit der Möglichkeit, nachzufragen und mit echten, etwas chaotischen Patientennachrichten.
Die „Angst vor der KI" war vielleicht übertrieben. Die ursprüngliche Studie hat die Gefahr durch einen zu strengen, künstlichen Test exaggeriert. Die KI ist nicht so dumm, wie der Test suggerierte.
Der Kontext ist König. In der echten Welt kann ein Patient sagen: „Mir ist schwindelig und ich habe Angst." Die KI kann dann fragen: „Haben Sie auch Brustschmerzen?" In einem starren Test darf sie das nicht. Ohne diese Frage scheint die KI blind zu sein, aber in Wirklichkeit ist sie nur gebunden.

Fazit

Die KI im Gesundheitswesen ist wie ein sehr kluger Assistent, der gerade erst lernt. Wenn wir ihn in einen Käfig stecken und ihm verbieten, Fragen zu stellen oder zu erklären, wird er Fehler machen. Aber wenn wir ihn in eine echte Situation bringen, wo er mit Menschen sprechen darf, zeigt er sein wahres, hilfreiches Potenzial.

Die Botschaft ist also: Hören wir auf, KI mit veralteten Schulprüfungen zu testen, und fangen wir an, sie so zu prüfen, wie sie im echten Leben funktioniert. Nur so können wir sicherstellen, dass sie uns wirklich hilft und nicht nur im Testbuch versagt.

Evaluation format, not model capability, drives triage failure in the assessment of consumer health AI

Das große Missverständnis

Das Ergebnis: Der Test war das Problem, nicht die KI

Ein konkretes Beispiel: Der Asthma-Anfall

Was bedeutet das für uns?

Fazit

Titel:

1. Problemstellung

2. Methodik

3. Wichtige Beiträge und Ergebnisse

A. Der „Exam-Style"-Format zwingt zu Fehlern

B. Natürliche Interaktion verbessert die Genauigkeit

C. Das Scaffold ist nicht neutral

D. Kritik am Original-Design

4. Signifikanz und Implikationen

Evaluation format, not model capability, drives triage failure in the assessment of consumer health AI

Das große Missverständnis

Das Ergebnis: Der Test war das Problem, nicht die KI

Ein konkretes Beispiel: Der Asthma-Anfall

Was bedeutet das für uns?

Fazit

Titel:

1. Problemstellung

2. Methodik

3. Wichtige Beiträge und Ergebnisse

A. Der „Exam-Style"-Format zwingt zu Fehlern

B. Natürliche Interaktion verbessert die Genauigkeit

C. Das Scaffold ist nicht neutral

D. Kritik am Original-Design

4. Signifikanz und Implikationen

Mehr davon

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem