📄 health informatics

Automated Extraction of Cancer Registry Data from Pathology Reports: Comparing LLM-Based and Ontology-Driven NLP Platforms

Die Studie zeigt, dass ein auf LLMs basierendes System (Brim Analytics) im Vergleich zu einem ontologiebasierten Ansatz (DeepPhe) bei der automatisierten Extraktion von Krebsregisterdaten aus Pathologieberichten eine höhere Gesamtgenauigkeit und effiziente Verarbeitungszeiten erreicht.

Ursprüngliche Autoren: McPhaul, T., Kreimeyer, K., Baris, A., Botsis, T.

Veröffentlicht 2026-03-23

📖 5 Min. Lesezeit🧠 Tiefgang

CC BY 4.0

Ursprüngliche Autoren: McPhaul, T., Kreimeyer, K., Baris, A., Botsis, T.

Originalarbeit lizenziert unter CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/). ⚕️ Dies ist eine KI-generierte Erklärung eines Preprints, das nicht peer-reviewed wurde. Dies ist kein medizinischer Rat. Treffen Sie keine Gesundheitsentscheidungen auf Grundlage dieses Inhalts. Vollständigen Haftungsausschluss lesen

🏥 Der große Daten-Detektiv: Wie KI Krebs-Reports liest

Stellen Sie sich vor, ein Krebsregister ist wie eine riesige Bibliothek, die jedes Jahr Millionen von Patientenakten sortieren muss. Aber hier ist das Problem: Die wichtigsten Informationen liegen nicht in sauberen Tabellen, sondern in chaotischen, handschriftlichen oder frei formulierten Texten der Pathologen (den Ärzten, die Gewebeproben untersuchen).

Früher mussten geschulte Menschen (Tumor-Registrierer) diese Texte manuell lesen und die Daten abtippen. Das ist wie das mühsame Abschreiben von Tausenden von Briefen – teuer, langsam und fehleranfällig.

Diese Studie fragt: Können zwei verschiedene Arten von KI-Systemen diese Aufgabe besser und schneller erledigen?

Die Forscher haben zwei "Detektive" getestet:

Brim Analytics (Der KI-Coach): Ein System, das auf modernen "Großen Sprachmodellen" (LLMs) basiert. Es ist wie ein sehr kluger Assistent, dem man klare Anweisungen gibt: "Suche nach der Tumorgröße und ignoriere verwirrende Wörter."
DeepPhe (Der Wörterbuch-Spezialist): Ein älteres System, das auf einem riesigen medizinischen Wörterbuch (Ontologie) und festen Regeln basiert. Es ist wie ein strenger Bibliothekar, der nur findet, was exakt im Wörterbuch steht.

Die beiden wurden an echten Patientenakten von Johns Hopkins getestet: 330 Fälle von Bauchspeicheldrüsenkrebs und 34 Fälle von Brustkrebs.

🥊 Der Wettkampf: Wer ist besser?

1. Der Bauchspeicheldrüsen-Krebs-Test (Der schwierige Fall)

Bauchspeicheldrüsenkrebs ist komplex. Die Berichte sind oft chaotisch, voller Fachbegriffe und unterschiedlicher Formulare.

Der KI-Coach (Brim): Er war ein echter Gewinner. Er hat fast alles richtig verstanden (durchschnittlich 96,7 % Genauigkeit). Er konnte auch bei den schwierigsten Fragen wie "Wie groß ist der Tumor?" (T-Stadium) fast perfekt antworten.
Der Wörterbuch-Spezialist (DeepPhe): Er war gut bei den Lymphknoten (N-Stadium), aber bei der Tumorgröße hatte er große Probleme. Er war oft zu voreilig und dachte, der Tumor sei größer als er war (Genauigkeit nur 83,6 %).

Die Metapher: Stellen Sie sich vor, Sie müssen die Größe eines Objekts in einem dunklen Raum schätzen.

Brim schaltet das Licht ein, betrachtet den Raum und sagt: "Es ist genau 10 cm."
DeepPhe tastet nur im Dunkeln herum und sagt: "Ich glaube, es ist riesig!" (weil er unsicher ist und lieber zu hoch schätzt).

2. Der Brustkrebs-Test (Der Generalisierungs-Test)

Jetzt wurde es spannend: Die Systeme mussten ihre Fähigkeiten auf eine andere Krankheit übertragen, ohne neu trainiert zu werden.

Der KI-Coach (Brim): Er war wie ein erfahrener Reisender. Auch wenn die Sprache (die medizinischen Begriffe) etwas anders war, verstand er sofort, worum es ging. Seine Leistung sank nur minimal (von 96,7 % auf 93,7 %). Er war sehr stabil.
Der Wörterbuch-Spezialist (DeepPhe): Er geriet in Panik. Da Brustkrebs-Berichte oft anders geschrieben sind als Bauchspeicheldrüsen-Berichte, verlor er den Faden. Seine Genauigkeit bei der Tumorgröße stürzte auf nur 70,6 % ab. Er konnte die neuen "Wörter" nicht im alten Wörterbuch finden.

⏱️ Geschwindigkeit: Wer ist schneller?

Beide Systeme waren blitzschnell.

Brim brauchte im Durchschnitt weniger als eine Sekunde pro Bericht (bei Bauchspeicheldrüsen).
DeepPhe brauchte etwas länger, aber immer noch nur wenige Sekunden.
Das bedeutet: Beide können Tausende von Berichten in Minuten verarbeiten, was für Menschen Tage oder Wochen dauern würde.

🚨 Wo liegen die Fehler? (Die Fehleranalyse)

Brim (Der Vorsichtige): Wenn er einen Fehler machte, war er meist "vorsichtig". Er sagte eher "Ich weiß es nicht" oder unterschätzte den Tumor, als dass er etwas erfand. In der Medizin ist das oft besser: Lieber einen Tumor als etwas größer ansehen und genauer prüfen, als ihn zu klein zu schätzen und die Behandlung zu spät zu beginnen.
DeepPhe (Der Übertreiber): Er neigte dazu, Dinge zu finden, die gar nicht da waren (falsch-positive Fehler). Er dachte oft, der Tumor sei weiter fortgeschritten, als er tatsächlich war.

Ein weiterer wichtiger Punkt: Der Form des Berichts.

Wenn der Arzt einen modernen, strukturierten Bericht (wie ein ausgefülltes Formular) schrieb, waren beide gut.
Wenn der Arzt einen alten, freien Text (wie einen Brief) schrieb, scheiterte DeepPhe fast komplett. Brim hingegen konnte auch aus dem "Brief" die richtigen Informationen extrahieren.

💡 Das Fazit: Was bedeutet das für uns?

Diese Studie zeigt, dass die neue Generation von KI (wie Brim) bereit ist, den schweren Job der Datenerfassung zu übernehmen.

Für die Ärzte und Register: Die KI kann als "erster Durchgang" dienen. Sie füllt 95 % der Felder automatisch aus. Der menschliche Experte muss dann nur noch die restlichen 5 % prüfen, die die KI unsicher fand. Das spart enorme Zeit und Geld.
Die Lektion: Alte, starre Systeme (wie DeepPhe) sind gut, aber sie brauchen viel Anpassung, wenn sich die Sprache der Ärzte ändert. Neue KI-Systeme (wie Brim) sind flexibler, verstehen Kontext besser und können sich leichter auf neue Krankheiten übertragen.

Zusammenfassend: Die KI ist nicht da, um die menschlichen Experten zu ersetzen, sondern um ihnen den schweren Stein vom Rücken zu nehmen. Sie liest die Akten, sortiert das Chaos und gibt dem Menschen die Zeit, sich auf das Wesentliche zu konzentrieren: die Patienten.

Automated Extraction of Cancer Registry Data from Pathology Reports: Comparing LLM-Based and Ontology-Driven NLP Platforms

🏥 Der große Daten-Detektiv: Wie KI Krebs-Reports liest

🥊 Der Wettkampf: Wer ist besser?

1. Der Bauchspeicheldrüsen-Krebs-Test (Der schwierige Fall)

2. Der Brustkrebs-Test (Der Generalisierungs-Test)

⏱️ Geschwindigkeit: Wer ist schneller?

🚨 Wo liegen die Fehler? (Die Fehleranalyse)

💡 Das Fazit: Was bedeutet das für uns?

Titel: Automatisierte Extraktion von Krebsregisterdaten aus Pathologieberichten: Ein Vergleich von LLM-basierten und ontologiegetriebenen NLP-Plattformen

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Schlussfolgerung

🏥 Der große Daten-Detektiv: Wie KI Krebs-Reports liest

🥊 Der Wettkampf: Wer ist besser?

1. Der Bauchspeicheldrüsen-Krebs-Test (Der schwierige Fall)

2. Der Brustkrebs-Test (Der Generalisierungs-Test)

⏱️ Geschwindigkeit: Wer ist schneller?

🚨 Wo liegen die Fehler? (Die Fehleranalyse)

💡 Das Fazit: Was bedeutet das für uns?

Titel: Automatisierte Extraktion von Krebsregisterdaten aus Pathologieberichten: Ein Vergleich von LLM-basierten und ontologiegetriebenen NLP-Plattformen

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Schlussfolgerung

Mehr davon