Ursprüngliche Autoren: Liqi Zhou, Jiafu Li

Veröffentlicht 2026-05-18✓ Author reviewed ⓘ

📖 5 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Liqi Zhou, Jiafu Li

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ⚕️ Dies ist eine KI-generierte Erklärung eines Preprints, das nicht peer-reviewed wurde. Dies ist kein medizinischer Rat. Treffen Sie keine Gesundheitsentscheidungen auf Grundlage dieses Inhalts. Vollständigen Haftungsausschluss lesen

Stellen Sie sich eine belebte Notaufnahme in einem Krankenhaus vor, aber anstatt dass Menschen durch die Tür gehen, tippen Tausende von Menschen Fragen auf einen Computerbildschirm. Einige fragen nach einer leichten Erkältung, einige müssen einen Routinearzttermin vereinbaren, einige haben Symptome, die innerhalb eines Tages ärztliche Aufmerksamkeit erfordern, und wenige haben lebensbedrohliche Notfälle.

Die Herausforderung für das Krankenhaus lautet: Wie sortieren Sie diese Tausende von Nachrichten schnell und sicher, ohne dass ein Mensch jede einzelne liest?

Dieser Artikel ist wie eine Probefahrt für eine neue Art von „digitalem Sortierer" mit Hilfe von Künstlicher Intelligenz (KI). Hier ist die Aufschlüsselung dessen, was sie taten und was sie fanden, unter Verwendung einfacher Analogien.

Das Problem: Der „lautstarke" Posteingang

Online-Patientennachrichten sind chaotisch. Menschen sprechen nicht wie Ärzte; sie schreiben wie Freunde. Sie könnten vergessen zu erwähnen, wie lange sie schon krank sind, wie stark der Schmerz ist oder ob sie andere gesundheitliche Probleme haben.

Das Ziel: Sortieren Sie diese Nachrichten in vier Eimer:
1. Selbstbehandlung: „Bleiben Sie zu Hause, trinken Sie Tee, es wird schon wieder."
2. Termin vereinbaren: „Machen Sie einen Termin für nächste Woche."
3. Dringende Prüfung: „Rufen Sie noch heute oder morgen einen Arzt an."
4. Notfall: „Rufen Sie 112 oder gehen Sie sofort in die Notaufnahme."

Das Experiment: Der „Lehrer" vs. der „kluge Schüler"

Die Forscher wollten herausfinden, ob neue, leistungsstarke KI-Modelle (sogenannte Large Language Models oder LLMs) diese Sortierung besser durchführen können als ältere, einfachere Computerprogramme, insbesondere wenn sie keinen riesigen Haufen vorab gelabelter Beispiele zum Lernen haben.

Der alte Weg (überwachte Modelle): Stellen Sie sich einen Schüler vor, der 700 spezifische Beispiele für Patientennachrichten und ihre Antworten auswendig lernen muss, um die Regeln zu verstehen. Sie werden mit „Silber-Labels" trainiert (Antworten, die von einer KI generiert wurden, nicht von einem menschlichen Arzt).
Der neue Weg (gepromptete LLMs): Stellen Sie sich einen sehr klugen Schüler vor, der Millionen von Büchern gelesen hat. Anstatt 700 Beispiele auswendig zu lernen, geben Sie ihm nur ein paar Regeln und ein paar Beispiele (sogenanntes „Few-Shot-Prompting") und fragen: „Hier ist eine neue Nachricht; wohin gehört sie?"

Die Ergebnisse: Wer hat das Rennen gewonnen?

1. Der „kluge Schüler" (LLMs) war besser, aber nicht mit einem klaren Sieg.
Das beste KI-Modell (Claude Haiku 4.5) hatte bei 12 Beispielen zum Lernen etwa 47,5 % der Antworten richtig. Das beste Modell des „alten Weges" (BioBERT) hatte etwa 37,8 % richtig.

Der Haken: Der Unterschied war nicht groß genug, um statistisch sicher zu sagen, dass die neue KI definitiv „besser" ist; ihre Ergebnisse überschneideten sich. Es ist wie bei zwei Läufern, die ein Rennen beenden, wobei einer leicht vorne liegt, aber die Lücke so klein ist, dass man ohne eine erneute Lauf nicht zu 100 % sicher sein kann, wer schneller ist.

2. Der „Sicherheits-Score" ist wichtiger als die „Note".
Bei einer Sortieraufgabe ist es schlimmer, ein Feuer zu übersehen (Notfall), als einen Nicht-Notfall zur Feuerwehr zu schicken (Übertriage).

Die Forscher stellten fest, dass die KI-Modelle zwar bei der allgemeinen „Note" (Macro-F1) besser wurden, aber deutlich besser in puncto Sicherheit waren.
Die KI-Modelle verpassten fast nie einen echten Notfall (schwere Untertriage lag bei 0 % im Test), während die älteren Modelle etwa 30 % der gefährlichen Fälle übersehen haben.
Analogie: Die KI ist wie ein Sicherheitsbeamter, der beim Ausweisen etwas langsamer ist, aber echte Bedrohungen viel besser erkennt.

3. Das „verwirrende Mittel" ist immer noch schwierig.
Die KI war hervorragend darin, „Selbstbehandlung" (einfach) und „Notfall" (offensichtlich) zu erkennen. Aber sie hatte Schwierigkeiten mit dem Mittelbereich: „Dringende klinische Prüfung".

Analogie: Es ist leicht, den Unterschied zwischen einem Schnitt und einem Herzinfarkt zu erkennen. Es ist sehr schwer, den Unterschied zwischen einem schlechten Bauchweh, das morgen einen Arzt erfordert, und einem, das eine Woche warten kann, zu erkennen. Selbst die klügste KI war hier verwirrt.

4. Die „zweiköpfige" Strategie (Konsens)
Die Forscher versuchten einen klugen Trick: Was wäre, wenn sie zwei verschiedene KI-Modelle verwenden würden, um die Nachrichten zu sortieren?

Wenn beide KIs zustimmen: „Okay, wir beide denken, das ist 'Selbstbehandlung'. Akzeptieren wir es." (Das funktionierte sehr gut).
Wenn die KIs nicht zustimmen: „Wir können uns nicht einigen. Schicken wir das an einen menschlichen Arzt zur Prüfung."
Das Ergebnis: Dieser „zweiköpfige" Ansatz schuf ein Sicherheitsnetz. Es bedeutete nicht, dass die KI allein arbeiten konnte; es bedeutete, dass die KI als Filter dienen konnte, um Menschen zu helfen, sich auf die kniffligen Fälle zu konzentrieren.

Das Fazit: Ein hilfreicher Assistent, kein Ersatz

Der Artikel kommt zu dem Schluss, dass diese KI-Modelle nicht bereit sind, allein zu arbeiten. Sie sind keine „autonomen" Ärzte.

Stellen Sie sie sich stattdessen als hochtechnologischen Triage-Krankenpfleger-Assistenten vor:

Sie können die einfachen „Selbstbehandlungs"-Fragen schnell sortieren.
Sie können die offensichtlichen Notfälle markieren, damit niemand sie übersehen wird.
Aber bei den verwirrenden Fällen im Mittelbereich müssen sie die Nachricht immer an einen menschlichen Arzt weiterleiten.

Kurz gesagt: Die KI ist ein großartiges Werkzeug, um Menschen bei der Priorisierung ihrer Arbeitslast zu helfen, aber sie sollte niemals die endgültige Entscheidungsträgerin für die Patientensicherheit sein.

Technische Zusammenfassung: Few-Shot Large Language Models für handlungsorientierte Triage-Kategorisierung von Online-Patientenanfragen

Problemstellung

Online-Patientenanfragen auf Gesundheitsplattformen sind typischerweise informell, unvollständig und werden vor einer professionellen Beurteilung verfasst. Trotz dieser Einschränkungen benötigen Gesundheitssysteme skalierbare Methoden, um diese Nachrichten an ein angemessenes Niveau der klinischen Nachsorge zu leiten. Diese Studie fasst das Problem als vierklassige handlungsorientierte Triage-Aufgabe zusammen, die sich von der Generierung von Diagnosen oder der allgemeinen medizinischen Textklassifizierung unterscheidet. Das Ziel ist es, jeder Patientenanfrage genau eines von vier Routing-Tags zuzuweisen:

Selbstversorgung: Behandelbar zu Hause ohne klinischen Kontakt.
Terminvereinbarung: Erfordert eine nicht-dringende klinische Beurteilung (Tage bis Wochen).
Dringende klinische Prüfung: Erfordert eine zeitnahe Prüfung innerhalb von 24–48 Stunden.
Notfallüberweisung: Erfordert eine sofortige Notfallbeurteilung.

Die Aufgabe ist aufgrund des Fehlens wichtiger klinischer Details (Dauer, Schweregrad, Vitalwerte) in den von Patienten verfassten Texten, der Seltenheit von Fällen mit hohem Schweregrad und der klinischen Asymmetrie von Fehlern herausfordernd, bei der eine Untertriage (Übersehen eines dringenden Falls) gefährlicher ist als eine Übertriage.

Methodik

Datenerstellung

Die Studie nutzt das HealthCareMagic-100K-Korpus, einen öffentlichen Datensatz anonymisierter Austausch zwischen Patienten und Ärzten.

Vorverarbeitung: Datensätze wurden gefiltert, um Nachrichten mit weniger als 20 Tokens oder mehr als 500 Tokens zu entfernen, wodurch 110.163 verwertbare Nachrichten übrig blieben.
Stratifizierte Stichprobenziehung: Um Klassenungleichgewichte (insbesondere die Knappheit von Notfallfällen) zu adressieren, wurde eine keyword-stratifizierte Stichprobenstrategie angewendet. Datensätze wurden basierend auf Notfall-Schlüsselwörtern und Phrasen zur Eskalation durch Ärzte bewertet und dann in Gruppen (Selbstversorgung, Terminvereinbarung, dringend, Notfall) eingeteilt, um den Arbeitspool mit Anfragen höherer Dringlichkeit anzureichern.
Datenaufteilung: Aus einem Arbeitspool von 1.040 Datensätzen wurden drei disjunkte Mengen erstellt:
- Silberner Trainingsdatensatz (N=700): Automatisch von Claude Sonnet 4.5 etikettiert. Verwendet für das Training überwachter Basismodelle.
- Goldener Evaluierungsdatensatz (N=300): Von zwei Forschern unter Verwendung einer verfeinerten Annotationsrichtlinie menschlich kalibriert. Verwendet für die finale Evaluierung.
- Few-Shot-Pool (N=40): Hochkonfidente, menschlich verifizierte Beispiele, die für Demonstrationszwecke im Kontextlernen verwendet werden.

Annotation und Etikettierung

Eine strukturierte Annotationsrichtlinie wurde durch einen Pilotversuch mit zwei Personen und sechs Verfeinerungsrunden entwickelt. Sie betont die „Triage allein aus Text", unterscheidet aktive Symptome von informativen Anfragen und wendet niedrigere Schwellenwerte für vulnerable Bevölkerungsgruppen an.

Silberne Labels: Generiert von Claude Sonnet 4.5.
Goldene Kalibrierung: Menschliche Prüfer verglichen ihre unabhängigen Labels mit den initialen Sonnet-Labels. Für den goldenen Datensatz wurden 38 % der Labels revidiert, was zu einem Cohen's $\kappa$ von 0,35 zwischen Sonnet und Mensch führte und die Notwendigkeit einer menschlichen Kalibrierung unterstreicht.

Experimentelles Setup

Die Studie vergleicht überwachte Basismodelle mit geprompten Large Language Models (LLMs) unter ressourcenarmen Bedingungen.

Überwachte Basismodelle:
- TF-IDF: Logistische Regression, Random Forest und XGBoost, trainiert auf dem 700 Datensätze umfassenden silbernen Datensatz.
- BioBERT: BioBERT-v1.1, feinabgestimmt auf den silbernen Datensatz.
- Hinweis: Sowohl „Standard"- (volle 700 Beispiele) als auch „ausgeglichene" (auf 91 Beispiele pro Klasse heruntergesampelte) Trainingsbedingungen wurden evaluiert.
Gepromptete LLMs: Sechs Modelle (Llama3.1-8B, Qwen3-8B, Mistral-7B, DeepSeek-R1-7B, GPT-4o-mini, Claude Haiku 4.5) wurden ohne Parameter-Updates evaluiert.
Prompting-Bedingungen: Modelle wurden unter 0-Shot, 4-Shot (ein Beispiel pro Klasse) und 12-Shot (drei Beispiele pro Klasse) Settings getestet.

Evaluierungsmetriken

Primäre Metrik: Macro-F1 (zur Berücksichtigung von Klassenungleichgewichten).
Sicherheitsbewusste Metriken: Recall für Notfälle, Recall für dringend oder höher, Untertriage-Rate (Vorhersage einer geringeren Schwere als die tatsächliche) und schwere Untertriage-Rate (Lücke von $\ge$ 2 Stufen).
Konsensanalyse: Eine Oracle-Human-in-the-Loop (HITL)-Simulation, bei der Vorhersagen nur automatisch akzeptiert werden, wenn zwei Modelle übereinstimmen; andernfalls werden Fälle zur menschlichen Prüfung eskaliert.

Wichtige Ergebnisse

Klassifikationsleistung

Überwachte Basismodelle: Das stärkste überwachte Basismodell war BioBERT-v1.1 (Standard) mit einem Macro-F1 von 0,378. Die Leistung war bei der Klasse „Notfallüberweisung" (F1 $\approx$ 0,26) bemerkenswert schwach.
LLM-Leistung: Few-Shot-Prompting verbesserte die Leistung. Das stärkste Modell, Claude Haiku 4.5 (12-Shot), erreichte einen Macro-F1 von 0,475. Weitere Spitzenreiter waren Llama3.1-8B (0,464) und Qwen3-8B (0,444).
Statistische Signifikanz: Obwohl LLMs in Punktschätzungen die Basismodelle übertrafen, überlappten sich die Konfidenzintervalle. McNemar-Tests zeigten, dass nur Llama3.1-8B signifikant besser war als BioBERT-v1.1; die Top-LLMs unterschieden sich nicht signifikant voneinander.

Klassen-spezifische und Sicherheitsleistung

Klassenschwierigkeit: „Selbstversorgung" war die einfachste Klasse für LLMs (F1 > 0,65). „Dringende klinische Prüfung" blieb über alle Modelle hinweg die schwierigste Klasse (F1 < 0,35), was die Ambivalenz von Fällen mit mittlerem Schweregrad widerspiegelt.
Sicherheitsmetriken: LLMs zeigten im Vergleich zu überwachten Basismodellen überlegene Sicherheitsprofile.
- Untertriage: Alle Top-LLM-Konfigurationen erreichten eine schwere Untertriage-Rate von 0,000 im goldenen Datensatz, während überwachte Basismodelle zwischen 0,269 und 0,308 lagen.
- Recall: GPT-4o-mini (12-Shot) erreichte den höchsten Recall für dringend oder höher (0,984) und die niedrigste Untertriage-Rate (0,053), trotz eines niedrigeren Macro-F1 als Claude Haiku 4.5.

Prompt-Sensitivität und Konsens

Prompt-Sensitivität: Leistungsgewinne durch Few-Shot-Prompting waren nicht monoton oder einheitlich. Während Claude Haiku 4.5 mit mehr Shots monoton verbesserte, erreichte Qwen3-8B bei 4-Shot seinen Höhepunkt, und Llama3.1-8B performte bei 4-Shot schlechter als bei 0-Shot.
Zwei-Modell-Konsens: Die Übereinstimmung zwischen Modellen war stark labelabhängig.
- Selbstversorgung: Hohe Zuverlässigkeit der Übereinstimmung (Konsensgenauigkeit > 90 %).
- Dringende klinische Prüfung: Geringe Zuverlässigkeit der Übereinstimmung (Konsensgenauigkeit $\approx$ 25 %).
- Oracle-HITL: Die Simulation eines Workflows, bei dem Uneinigkeiten an Menschen eskaliert werden, ergab eine theoretische Macro-F1 von bis zu 0,708 (GPT-4o-mini + Llama3.1-8B), was ein erhebliches Potenzial für Entscheidungsunterstützung nahelegt.

Bedeutung und Behauptungen

Die Arbeit kommt zu dem Schluss, dass geprompte LLMs die Triage-Priorisierung und selektive menschliche Prüfung unterstützen können, aber nicht bereit für den autonomen Einsatz sind.

Entscheidungsunterstützung, kein Ersatz: Die Autoren argumentieren, dass der Wert von LLMs in ihrer Fähigkeit liegt, Freitext-Symptome zu interpretieren und komplexe Richtlinien ohne aufgabenspezifisches Fine-Tuning zu befolgen. Die anhaltende Schwierigkeit bei der Klassifizierung von „dringenden klinischen Prüfungs"-Fällen und das Risiko einer Untertriage in hochriskanten Szenarien schließen jedoch ein autonomes Routing aus.
Workflow-Integration: Die Studie schlägt eine Strategie der selektiven Vorhersage vor, bei der LLMs risikoarme „Selbstversorgung"-Übereinstimmungen (die zuverlässig sind) bearbeiten und hochriskante oder unsichere Fälle zur menschlichen Prüfung markieren.
Sicherheitsbewusste Evaluierung: Die Arbeit betont, dass aggregierte Metriken wie Macro-F1 kritische Sicherheitskompromisse verschleiern. Modelle mit niedrigeren F1-Werten können vorzuziehen sein, wenn sie die Untertriage minimieren, was sicherheitsbewusste Evaluierungsrahmen im klinischen NLP erfordert.
Einschränkungen: Die Autoren erkennen Einschränkungen an, darunter die Verwendung eines einzigen öffentlichen Korpus, die bescheidene Größe des goldenen Datensatzes (insbesondere für Notfallfälle), die Abhängigkeit von silbernen Labels für das überwachte Training und den Offline-Charakter der Evaluierung. Sie stellen fest, dass eine prospektive Validierung mit klinischen Prüfern erforderlich ist, bevor Aussagen über Arbeitslastreduktion oder Sicherheit getroffen werden können.

Zusammenfassend bietet diese Arbeit einen rigorosen Benchmark für LLMs in der Online-Patiententriage und zeigt, dass zwar Few-Shot-LLMs in ressourcenarmen Umgebungen traditionelle überwachte Basismodelle übertreffen, ihr Einsatz jedoch strikt durch menschliche Aufsicht und labelabhängige Konfidenzsignale begrenzt werden muss.

Few-Shot Large Language Models for Actionable Triage Categorization of Online Patient Inquiries