Conformal Prediction for Risk-Controlled Medical Entity Extraction Across Clinical Domains

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Forschung, als würde man sie einem Freund beim Kaffee erzählen – ohne komplizierte Fachbegriffe, aber mit ein paar bildhaften Vergleichen.

Das große Problem: Der „selbstbewusste Lügner"

Stellen Sie sich vor, Sie haben einen sehr klugen, aber manchmal etwas übermütigen KI-Assistenten (einen „Large Language Model" oder LLM), der medizinische Texte liest und wichtige Informationen herauszieht – zum Beispiel: „Welche Nebenwirkungen hat dieses Medikament?" oder „Was steht im Röntgenbericht über die Lunge?"

Das Problem ist: Dieser Assistent ist oft nicht gut darin, seine eigene Unsicherheit einzuschätzen.

Manchmal ist er zu selbstbewusst: Er sagt zu 99 %, dass etwas richtig ist, obwohl es völlig falsch ist. (Wie ein Tourist, der sich zu 100 % sicher ist, dass er in Paris ist, obwohl er eigentlich in Berlin steht.)
Manchmal ist er zu unsicher: Er sagt nur zu 40 %, dass etwas richtig ist, obwohl es zu 100 % stimmt. (Wie ein Genie, das vor der Prüfung zittert, obwohl es die Antworten auswendig gelernt hat.)

In der Medizin ist das gefährlich. Wenn der Assistent eine falsche Information mit einem „Ich bin mir sicher!"-Label liefert, kann das zu Fehlentscheidungen führen.

Die Lösung: Ein „Sicherheitsgurt" für KI-Antworten

Die Forscher aus dem Paper haben eine Methode entwickelt, die sie Conformal Prediction nennen. Man kann sich das wie einen intelligenten Sicherheitsgurt vorstellen, der nicht nur den Fahrer schützt, sondern auch entscheidet, wann es zu gefährlich ist, überhaupt loszufahren.

Statt dem KI-Assistenten einfach zu glauben, wenn er „sicher" klingt, prüft diese Methode:

Wie oft lag der Assistent in der Vergangenheit bei ähnlichen Aufgaben?
Wie viel Risiko sind wir bereit einzugehen? (Zum Beispiel: „Wir wollen höchstens 5 % falsche Informationen akzeptieren.")

Basierend darauf zieht der Sicherheitsgurt eine Grenze.

Wenn die KI eine Antwort gibt, die sicher genug ist (über der Grenze), wird sie akzeptiert.
Wenn die Antwort in der „Grauzone" liegt (zu unsicher oder zu riskant), wird sie abgelehnt und ein Mensch muss sie überprüfen.

Zwei verschiedene Welten: Der „Ordnungsliebende" vs. der „Chaos-Künstler"

Das Spannendste an dieser Studie ist, dass sie zwei völlig verschiedene medizinische Bereiche getestet haben und dort entgegengesetzte Probleme gefunden haben:

1. Die Welt der Medikamenten-Labels (FDA) – Der „Ordnungsliebende"

Stellen Sie sich FDA-Drug-Labels wie ein striktes Formular vor. Alles ist in Abschnitte unterteilt, die Sprache ist gesetzlich vorgeschrieben und sehr klar.

Das Verhalten der KI: Hier war die KI zu ängstlich. Sie hat bei richtigen Antworten oft gezögert („Ich bin mir nur zu 60 % sicher"), obwohl die Antwort offensichtlich richtig war.
Das Ergebnis: Da die KI so vorsichtig war, musste der Sicherheitsgurt kaum etwas abfangen. Fast alle Antworten durften durch. Die KI war hier eigentlich „zu gut" für ihre eigene Einschätzung.

2. Die Welt der Röntgenberichte – Der „Chaos-Künstler"

Stellen Sie sich Röntgenberichte wie kurze, abgehackte Notizen eines Arztes vor. Es gibt Abkürzungen, doppelte Bedeutungen und Sätze wie „kann nicht ausgeschlossen werden". Das ist chaotisch und schwer zu lesen.

Das Verhalten der KI: Hier war die KI übermütig. Sie hat bei falschen Antworten oft laut „Ich bin mir 100 % sicher!" gerufen.
Das Ergebnis: Der Sicherheitsgurt musste hier viel härter arbeiten. Er hat viele Antworten blockiert, die die KI für sicher hielt, aber tatsächlich falsch waren. Besonders bei unsicheren Aussagen („vielleicht") hat die KI komplett versagt und wurde zu 100 % abgelehnt.

Die große Erkenntnis: „One Size Fits All" funktioniert nicht

Die wichtigste Botschaft des Papers ist: Man kann nicht mit einem einzigen Maßstab für alle KI-Modelle arbeiten.

Bei strukturierten Texten (wie Formularen) ist die KI oft zu vorsichtig.
Bei freiem Text (wie Arztbriefen) ist die KI oft zu selbstbewusst.

Wenn man also eine KI in einem Krankenhaus einführen will, muss man den „Sicherheitsgurt" für jeden Texttyp neu justieren. Ein globales System, das einfach sagt „Alles, was die KI zu 80 % sicher findet, ist okay", würde in der einen Welt zu viele Fehler durchlassen und in der anderen zu viele gute Antworten blockieren.

Fazit

Die Forscher haben gezeigt, wie man KI in der Medizin sicherer macht, indem man sie nicht blind vertraut, sondern ihre Antworten mit einem mathematischen Sicherheitsnetz prüft. Das Besondere: Dieses Netz passt sich automatisch an den „Charakter" des Textes an. Mal ist die KI zu ängstlich, mal zu selbstsicher – und der Sicherheitsgurt sorgt dafür, dass am Ende nur das durchkommt, was wirklich verlässlich ist.

Kurz gesagt: Wir haben gelernt, dass KI-Assistenten in der Medizin nicht einfach nur „klug" sein müssen, sondern wir müssen auch lernen, wann wir ihnen trauen dürfen und wann wir lieber selbst nachschauen sollten – und das hängt davon ab, was sie gerade lesen.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Conformal Prediction for Risk-Controlled Medical Entity Extraction Across Clinical Domains" von Manil Shrestha und Edward Kim auf Deutsch.

1. Problemstellung

Die Verwendung von Large Language Models (LLMs) zur Extraktion strukturierter Entitäten aus unstrukturierten medizinischen Texten (z. B. Arzneimittelzulassungen, radiologische Berichte) gewinnt zunehmend an Bedeutung. Ein kritisches Hindernis für den sicheren Einsatz in klinischen Umgebungen ist jedoch die schlechte Kalibrierung der Konfidenzscores dieser Modelle.

Das Risiko: LLMs neigen dazu, falschen Extraktionen fälschlicherweise hohe Konfidenzwerte zuzuweisen (Übervertrauen) oder korrekte Extraktionen zu unterschätzen (Untervertrauen).
Die Konsequenz: In klinischen Entscheidungspipelines können solche „stillschweigenden Fehler" (silent errors) zu schwerwiegenden Folgen führen.
Herausforderung: Herkömmliche Nachkalibrierungstechniken (wie Temperature Scaling) erfordern separate Validierungsdaten und bieten keine formalen Garantien für die Abdeckung (Coverage). Zudem variiert das Kalibrierungsverhalten stark zwischen verschiedenen Domänen und Entitätstypen, was eine universelle Zuverlässigkeitsschwelle unmöglich macht.

2. Methodik

Die Autoren stellen einen Rahmenwerk basierend auf Konformaler Vorhersage (Conformal Prediction, CP) vor, speziell angepasst für die Kontrolle der False Discovery Rate (FDR) nach dem Ansatz von Bates et al. [3]. Das Ziel ist es, für jede Extraktion eine Entscheidung (akzeptieren/ablehnen) zu treffen, die eine garantierte Obergrenze für den Anteil falscher Akzeptanzen (FDR) einhält.

Der Prozess umfasst vier Schritte:

Extraktion mit Token-Konfidenz:
- Es werden zwei Domänen untersucht:
  - FDA-Drogenetiketten: Strukturierte Daten aus 1.000 Etiketten (8 Sektionen) mittels GPT-4.1.
  - Radiologieberichte: Freitext aus MIMIC-CXR-Röntgenberichten (RadGraph-Schema) mittels GPT-4.1 und Llama-4-Maverick.
- Die Span-Konfidenz wird als geometrisches Mittel der Softmax-Wahrscheinlichkeiten der einzelnen Tokens berechnet, da ein einzelner unsicherer Token die gesamte Extraktion ungültig machen kann.
Verifizierung (Ground Truth):
- FDA: Ein „LLM-as-a-Judge"-Ansatz (GPT-5-mini) bewertet die Extraktionen auf einer Skala von 0–3. Nur vollständig verifizierte (Score 3) gelten als korrekt.
- Radiologie: Vergleich mit manuell annotierten Gold-Standard-Daten des RadGraph-Testsets (exakte Übereinstimmung von Textspanne und Label).
Nichtkonformitäts-Score:
- Die Konfidenz wird mittels Logit-Transformation ( $\text{logit}(p)$ ) in einen Score umgewandelt, der den Bereich hoher Konfidenz streckt.
FDR-Steuerung:
- Anstatt eine marginale Abdeckung zu targeten, wird ein Schwellenwert $\tau$ so gewählt, dass die empirische FDR auf einem Kalibrierungsset den Zielwert $\alpha$ nicht überschreitet.
- Extraktionen mit einem Score $\ge \tau$ werden akzeptiert; andere werden zur manuellen Überprüfung zurückgewiesen. Dies garantiert, dass der erwartete Anteil falscher Akzeptanzen $\le \alpha$ ist.

3. Wichtige Beiträge

FDR-garantierter Rahmen: Ein Framework, das für medizinische Entitätsextraktion in heterogenen klinischen Domänen endliche Stichproben-FDR-Garantien bietet.
Entdeckung der Kalibrierungs-Umkehrung: Der empirische Nachweis, dass die Richtung der Fehlkalibrierung domänenabhängig ist (siehe Ergebnisse).
Sweep-Analyse: Eine Analyse über verschiedene $\alpha$ -Werte hinweg, die scharfe Übergänge im Akzeptanzverhalten aufdeckt und die zugrundeliegende Fehlerstruktur der Domänen offenbart.
Modellvergleich: Die Erkenntnis, dass FDR-Schwellenwerte nicht nur von der Extraktionsgenauigkeit (F1-Score), sondern maßgeblich von der Fähigkeit des Modells abhängen, korrekte von falschen Extraktionen durch Konfidenzscores zu unterscheiden.

4. Ergebnisse

A. FDA-Drogenetiketten (Strukturierte Daten)

Kalibrierung: Das Modell (GPT-4.1) ist hier systematisch untervertraut (underconfident). Die vorhergesagte Konfidenz liegt unter der tatsächlichen Genauigkeit.
FDR-Ergebnisse:
- Die globale Basis-FDR liegt bei ca. 2,3 %. Daher erfüllt ein globales $\alpha = 0,05$ trivialerweise die Anforderung (nahezu 100 % Akzeptanz).
- Per-Sektion-Analyse: Hier zeigt sich Heterogenität. Während Sektionen wie „Nebenwirkungen" alle Extraktionen akzeptieren, erfordern Sektionen wie „Wechselwirkungen" (59,8 % Ablehnung) oder „Kontraindikationen" (41,5 % Ablehnung) strenge Filterung.
- Ausnahme: Die Sektion „Pädiatrische Anwendung" zeigt Übervertrauen und eine hohe Basis-Fehlerquote (74,3 % Genauigkeit), was zu einer 100 %igen Ablehnung führt, da kein Schwellenwert die FDR unter 0,05 drücken kann.

B. Radiologieberichte (Freitext/RadGraph)

Kalibrierung: Im Gegensatz zu den Etiketten sind beide Modelle hier übervertraut (overconfident). Sie weisen falschen Extraktionen fast sichere Wahrscheinlichkeiten zu.
FDR-Ergebnisse:
- Bei $\alpha = 0,05$ müssen beide Modelle alle Extraktionen ablehnen, da die Basis-Fehlerquote (15–20 %) zu hoch ist.
- Bei $\alpha = 0,10$ $α = 0, 10$ zeigt sich ein drastischer Unterschied:
  - Llama-4-Maverick: Akzeptiert 80,4 % der Extraktionen (nur 19,6 % Ablehnung).
  - GPT-4.1: Akzeptiert nur 40,7 % (59,3 % Ablehnung).
- Dies liegt daran, dass Llama-4-Maverick trotz ähnlicher F1-Werte besser kalibriert ist und Korrektheit besser von Unsicherheit unterscheiden kann.
- Unsichere Beobachtungen (OBS-U): Beide Modelle lehnen 100 % der Extraktionen in dieser Kategorie ab, da die Mehrdeutigkeit der Sprache („kann nicht ausgeschlossen werden") eine zuverlässige automatische Extraktion bei diesem FDR-Toleranzniveau unmöglich macht.

C. Domänenübergreifende Kalibrierungs-Umkehrung

Das Paper identifiziert eine fundamentale Umkehrung:

Strukturierte Daten (FDA): Das Modell ist vorsichtig (untervertraut), da das Format klar ist.
Freitext (Radiologie): Das Modell ist zu selbstbewusst (übervertraut), da es linguistisch plausible, aber semantisch falsche Extraktionen (z. B. bei Verneinungen oder Unsicherheitsformulierungen) als sicher einstuft.

5. Bedeutung und Fazit

Die Studie demonstriert, dass Kalibrierung keine globale Modelleigenschaft ist, sondern stark von der Dokumentstruktur, der Extraktionskategorie und der Modellarchitektur abhängt.

Praktische Implikation: Eine einzige Kalibrierungsstrategie funktioniert nicht über verschiedene klinische Dokumenttypen hinweg.
Sicherheitsgewinn: Der FDR-gesteuerte conformal prediction-Ansatz passt sich automatisch an diese Unterschiede an. Er deckt Heterogenitäten auf, die durch globale Schwellenwerte oder reine Genauigkeitsmetriken (wie F1) verborgen bleiben.
Zukunft: Das Framework ermöglicht einen sicheren Einsatz von LLMs in der klinischen Praxis, indem es unsichere Extraktionen automatisch zur menschlichen Überprüfung filtert, während vertrauenswürdige Extraktionen automatisiert werden können.

Limitationen: Der Ansatz erfordert Zugriff auf Token-Level-Log-Wahrscheinlichkeiten (nicht bei allen Black-Box-Modellen verfügbar) und basiert auf einer Annahme der Austauschbarkeit (Exchangeability) innerhalb der Domänen, die bei starken Distribution Shifts verletzt sein könnte.