SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy

Die Studie SemioLLM bewertet die Fähigkeit verschiedener Large Language Models, diagnostische Schlussfolgerungen aus unstrukturierten klinischen Epilepsie-Beschreibungen zu ziehen, und zeigt, dass diese durch Prompt-Engineering und klinische Kontextualisierung die Leistung von Ärzten erreichen können, wobei jedoch die Gefahr von Halluzinationen und die Notwendigkeit verbesserter Interpretierbarkeit bestehen bleiben.

Meghal Dani, Muthu Jeyanthi Prakash, Filip Rosa, Zeynep Akata, Stefanie Liebe

Veröffentlicht 2026-04-01
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Kann eine KI aus einem Geschwätz den richtigen Arzt raten?

Stellen Sie sich vor, Sie haben einen sehr klugen, aber noch etwas unerfahrenen Assistenten (eine Künstliche Intelligenz oder „KI"), der alles gelesen hat, was es auf der Welt zu wissen gibt. Jetzt wollen wir testen, ob dieser Assistent auch ein guter Neurologe werden kann.

Das Problem ist: Echte Ärzte müssen oft aus ungeordneten Geschichten von Patienten arbeiten. Ein Patient sagt vielleicht: „Ich hatte das Gefühl, als würde ich schweben, und dann habe ich gekaut, als würde ich Kaugummi kauen." Das ist keine strukturierte Liste mit Symptomen, sondern ein wilder Bericht.

Die Forscher wollten wissen: Kann eine KI aus diesen wilden, unstrukturierten Geschichten herausfinden, wo im Gehirn der „Fehler" sitzt (der epileptische Anfall beginnt)?

Das Experiment: Ein großes Match zwischen Mensch und Maschine

Die Forscher haben acht verschiedene KIs (darunter die bekannten GPT-4, Llama und spezialisierte Medizin-KIs) auf eine harte Probe gestellt. Sie gaben ihnen über 1.200 echte Geschichten von Epilepsie-Patienten.

Die Aufgabe war wie ein Detektiv-Spiel:

  1. Der Input: Eine Beschreibung eines Anfalls (z. B. „Der Patient hat mit dem rechten Arm gezuckt").
  2. Die Aufgabe: Die KI muss raten, in welchem der sieben großen Hirnareale der Anfall begonnen hat.
  3. Der Vergleich: Die KIs wurden mit echten Neurologen verglichen, die dieselben Geschichten lasen.

Die wichtigsten Entdeckungen (in Metaphern)

1. Der „Prompt" ist wie der Hut des Zauberers

Am Anfang (ohne Hilfe) waren die KIs wie Schüler, die zum ersten Mal in einer Prüfung sitzen. Sie lagen oft nur knapp über dem Zufall.
Aber dann passierte Magie: Die Forscher gaben den KIs bessere Anweisungen (sogenannte „Prompts").

  • Die Metapher: Stellen Sie sich vor, Sie fragen einen Freund: „Was ist los?" vs. „Du bist jetzt ein erfahrener Arzt. Analysiere die Symptome Schritt für Schritt und nenne mir die wahrscheinlichste Ursache."
  • Das Ergebnis: Sobald die KIs aufgefordert wurden, wie ein Experte zu denken und ihre Gedanken laut zu äußern (man nennt das „Chain-of-Thought"), wurden sie plötzlich fast so gut wie die echten Ärzte. Die KI lernte quasi, „nachzudenken", bevor sie antwortete.

2. Die Länge der Geschichte ist ein Bumerang

Interessanterweise funktionierte es nicht immer besser, je mehr Text die KI bekam.

  • Die Metapher:
    • Sehr kurze Geschichte: „Arm zuckt." -> Die KI denkt: „Ah, klar, Frontallappen!" (Oft richtig, weil es ein klassisches Zeichen ist).
    • Sehr lange, detaillierte Geschichte: Die KI bekommt alle Details, Zusammenhänge und Nuancen. Sie kann das Puzzle komplett lösen.
    • Mittlere Länge: Das ist die Falle! Zu viel Text, aber nicht genug Struktur. Die KI verirrt sich in den Details und wird verwirrt.
  • Das Fazit: Entweder sehr knappe Hinweise oder sehr ausführliche Berichte funktionieren am besten. Die „mittelmäßigen" Geschichten sind die schwierigsten.

3. Die „Verkleidung" (Persona) macht stark

Wenn die Forscher die KI sagten: „Du bist jetzt ein Epilepsie-Experte", wurde sie deutlich besser.

  • Die Metapher: Es ist wie bei einem Schauspieler. Wenn er sagt „Ich bin ein Arzt", zieht er die Rolle wirklich an und denkt wie einer. Die KI wurde durch diese Verkleidung selbstbewusster und treffsicherer.

4. Das Problem mit den „Halluzinationen" (Lügen)

Hier wird es kritisch. Manchmal sagte die KI die richtige Antwort, aber ihre Begründung war falsch.

  • Die Metapher: Ein Schüler schreibt die richtige Antwort auf den Zettel, hat aber die Formel im Kopf falsch angewendet oder erfindet eine Erfindung, die es gar nicht gibt.
  • Das Risiko: Die KI sagte: „Ich habe das in Studie X gelesen" – aber Studie X existiert gar nicht oder hat nichts damit zu tun. Das ist gefährlich im echten Leben. Man kann einer KI also nicht blind vertrauen, nur weil sie die richtige Diagnose nennt. Man muss prüfen, warum sie das sagt.

Was bedeutet das für uns?

Diese Studie zeigt uns zwei Dinge:

  1. Hoffnung: KI kann tatsächlich helfen, komplexe medizinische Geschichten zu verstehen und Diagnosen zu stellen, besonders wenn wir sie gut anleiten (wie einen guten Schüler). Sie kann Ärzte unterstützen, nicht ersetzen.
  2. Warnung: Wir müssen aufpassen. Die KI kann sich Dinge ausdenken (halluzinieren) und falsche Quellen erfinden. Bevor wir KI im Krankenhaus einsetzen, müssen wir sicherstellen, dass sie nicht nur die richtige Antwort gibt, sondern auch ehrlich und nachvollziehbar begründet.

Zusammenfassend: Die KI ist wie ein extrem gut gebildeter Medizinstudent, der alles gelesen hat. Wenn man ihn richtig fragt und ihm sagt, er soll wie ein Profi denken, kann er fast so gut sein wie ein erfahrener Arzt. Aber man muss ihm immer auf die Finger schauen, damit er nicht lügt oder Dinge erfindet.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →