📄 health informatics

Evaluating Large Language Models for Translating Multimodal Phenotype Documentations into Executable EHR Phenotyping Algorithms

Diese Studie bewertet führende große Sprachmodelle für die Übersetzung multimodaler klinischer Phänotyp-Dokumentation in ausführbare EHR-Algorithmen und stellt fest, dass diese zwar strukturierte Texte effektiv interpretieren, ihre Leistung jedoch bei ausschließlich diagrammbasierten Eingaben erheblich nachlässt, wodurch letztlich die Dokumentationsqualität und nicht die Modellfähigkeit als primärer Engpass identifiziert wird.

Ursprüngliche Autoren: Yan, C., Xin, Y., Su, W.-C., Gangireddy, S., Durbhakula, S., Bruehl, S. P., Dickson, A. L., Li, L., Feng, Q., Malin, B. A., Derr, T., Wei, W.-Q.

Veröffentlicht 2026-05-22

📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

CC BY 4.0

Ursprüngliche Autoren: Yan, C., Xin, Y., Su, W.-C., Gangireddy, S., Durbhakula, S., Bruehl, S. P., Dickson, A. L., Li, L., Feng, Q., Malin, B. A., Derr, T., Wei, W.-Q.

Originalarbeit lizenziert unter CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/). ⚕️ Dies ist eine KI-generierte Erklärung eines Preprints, das nicht peer-reviewed wurde. Dies ist kein medizinischer Rat. Treffen Sie keine Gesundheitsentscheidungen auf Grundlage dieses Inhalts. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie sind ein Meisterkoch, der versucht, ein berühmtes Gericht nachzukochen, aber Sie haben kein Rezept. Stattdessen haben Sie einen unordentlichen Stapel Notizen, einige auf Servietten gekritzelt, einige als Cartoons gezeichnet und einige in einer verwirrenden Mischung aus Sprachen geschrieben. Ihr Ziel ist es, diese unordentlichen Notizen in ein präzises, schrittweises Anleitungsbuch zu verwandeln, das eine Roboter-Küche befolgen kann, um das Gericht perfekt zu kochen.

Dieser Artikel handelt davon, zwei superschlaue KI-Köche (genannt Large Language Models, oder LLMs) zu testen, um zu sehen, ob sie diesen Job für die medizinische Forschung erledigen können.

Das Problem: Das „in der Übersetzung verloren gegangene" Rezept

In der medizinischen Forschung definieren Wissenschaftler spezifische Patientengruppen (wie „Menschen mit Typ-2-Diabetes") mithilfe komplexer Regeln. Diese Regeln werden üblicherweise in menschenlesbaren Dokumenten formuliert, die wie eine Mischung aus Geschichten, Flussdiagrammen und Tabellen aussehen.

Um diese Regeln im Computersystem eines Krankenhauses zu verwenden, muss ein menschlicher Experte sie manuell in eine Computersprache (SQL) übersetzen. Das ist wie das Übersetzen eines Gedichts in Computercode. Es dauert lange, ist sehr mühsam, und wenn zwei verschiedene Experten dies tun, können sie am Ende leicht unterschiedliche Ergebnisse erzielen. Die Forscher wollten herausfinden, ob KI diese Übersetzung automatisch durchführen könnte.

Das Experiment: Testen der KI-Köche

Die Forscher wählten zwei der intelligentesten verfügbaren KI-Modelle aus (OpenAIs GPT o3 und Anthropics Claude Opus 4.1) und gaben ihnen fünf verschiedene „Rezepte" (medizinische Definitionen für Zustände wie Nierenverletzungen, Herzinfarkte und Diabetes) aus einer öffentlichen Bibliothek namens PheKB.

Sie testeten die KI auf drei verschiedene Arten, so als gäbe man dem Koch verschiedene Arten von Anweisungen:

Das Komplettpaket: Die KI erhielt das gesamte Dokument (Text, Diagramme und Abbildungen).
Nur die Geschichte: Die KI erhielt nur den geschriebenen Text und Tabellen, aber keine Bilder.
Nur die Bilder: Die KI erhielt nur die Diagramme und Flussdiagramme, ohne Worte.

Die Ergebnisse: Was funktionierte und was nicht

1. Die „Nur-Bilder"-Falle
Als die KI versuchte, nur die Diagramme (die Flussdiagramme) zu lesen, scheiterte sie kläglich. Es war, als würde man einen Koch bitten, ein komplexes Gericht nur zu kochen, indem er auf eine Zeichnung eines Topfes und einer Gabel schaut, ohne dass Text die Zutaten oder Hitzelevel erklärt. Die KI übersah entscheidende Details, verwechselte die Timing und produzierte Anweisungen, die nicht funktionieren würden.

2. Die „Geschichte" ist König
Als die KI den geschriebenen Text erhielt (selbst ohne die Bilder), leistete sie eine sehr gute Arbeit. Es stellte sich heraus, dass die geschriebenen Worte fast alle benötigten Informationen enthielten. Die KI konnte die Logik verstehen und den Computercode genau schreiben.

3. Die KI ist ein großartiger Entwurfszeichner, kein finaler Redakteur
Beide KI-Modelle waren überraschend gut darin, das große Ganze und die Logik der Regeln zu verstehen. Allerdings machten sie spezifische Arten von Fehlern:

Fehlende Zutaten: Sie vergaßen manchmal, spezifische medizinische Codes einzuschließen (wie eine bestimmte Art von Medikament).
Falsche Zahlen: Sie könnten einen Schwellenwert falsch verstehen (z. B. „Blutdruck über 140" sagen, wenn die Regel „über 150" lautete).
Erfinden von Dingen: Manchmal erfand die KI Regeln oder Bedingungen, die überhaupt nicht im ursprünglichen Dokument standen (eine „Halluzination").
Verwechseln des Formats: Beim Betrachten von Diagrammen konnten sie oft nicht herausfinden, wie man einen visuellen Pfeil in einen logischen „wenn-dann"-Computerbefehl umwandelt.

Die große Erkenntnis

Der Artikel kommt zu dem Schluss, dass diese KI-Modelle noch nicht bereit sind, menschliche Experten zu ersetzen. Sie können nicht einfach ein unordentliches Dokument ansehen und ein perfektes, sofort einsatzbereites Computerprogramm ausspucken.

Allerdings sind sie hervorragende Generatoren für erste Entwürfe. Wenn man ihnen klaren, strukturierten Text gibt, können sie einen sehr guten Ausgangspunkt für den Code schreiben. Aber da sie subtile, aber gefährliche Fehler machen können (wie das Verwechseln einer Zahl oder das Übersehen einer Regel), muss ein menschlicher Experte ihre Arbeit immer überprüfen.

Die abschließende Lehre:
Das größte Problem ist nicht, dass die KI nicht schlau genug ist; es ist, dass medizinische Dokumente nicht so geschrieben sind, dass sie für Computer leicht lesbar sind. Wenn Ärzte und Forscher ihre Notizen standardisieren würden, um klarer und strukturierter zu sein (wie das Schreiben eines Rezepts in einem Standardformat statt auf einer Serviette zu kritzeln), würde die KI viel nützlicher werden. Bis dahin ist die KI eine hilfreiche Assistentin, aber der menschliche Experte muss der Chef bleiben.

Das Problem: Das „in der Übersetzung verloren gegangene" Rezept

Das Experiment: Testen der KI-Köche

Die Ergebnisse: Was funktionierte und was nicht

Die große Erkenntnis

Technisches Fazit: Evaluierung von Large Language Models für die Übersetzung multimodaler Phänotyp-Dokumentationen in ausführbare EHR-Phänotypisierungsalgorithmen

Mehr davon