Tracking Cancer Through Text: Longitudinal Extraction From Radiology Reports Using Open-Source Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Krebs durch Text verfolgen: Wie ein digitaler Detektiv aus Arztberichten ein lückenloses Bild macht

Stellen Sie sich vor, ein Arzt schreibt jeden Monat einen Bericht über einen Patienten. In diesen Berichten steht nicht nur, wie es dem Patienten geht, sondern auch eine detaillierte Geschichte über den Krebs: Wo sind die Tumore? Sind sie kleiner geworden? Sind neue aufgetaucht?

Das Problem ist: Diese Berichte sind wie lange, verworrene Romane. Sie sind in freiem Text geschrieben, nicht in übersichtlichen Tabellen. Für einen Computer ist es wie, wenn man versucht, die Handlung eines Films zu verstehen, indem man nur die Drehbuchnotizen liest, die in verschiedenen Sprachen und mit unterschiedlichen Schreibweisen verfasst sind. Früher brauchte man dafür riesige Teams von Programmierern, die Regeln wie „Wenn das Wort ‚Tumor' steht, dann suche nach einer Zahl" codierten. Das war mühsam und funktionierte oft nur in einem Fall von hundert.

Die neue Lösung: Ein intelligenter, privater Assistent

In dieser Studie haben die Forscher Luc Builtjes und Alessa Hering eine völlig neue Methode vorgestellt. Sie nutzen eine Art „künstlichen Intelligenz-Detektiv" (ein sogenanntes Large Language Model, kurz LLM), der wie ein sehr gut ausgebildeter, geduldiger Leser funktioniert.

Hier ist die einfache Analogie:
Stellen Sie sich vor, Sie haben zwei Fotos eines Gartens, das eine von heute und das eine von vor einem Monat. Ein normaler Computer würde sie einfach als zwei separate Bilder sehen. Unser neuer KI-Assistent hingegen schaut sich beide Fotos an und sagt: „Aha! Der große Stein (der Tumor) ist heute kleiner geworden. Der kleine Pilz (ein neuer Tumor) ist neu dazugekommen. Und die Hecke (ein anderer Befund) sieht immer noch gleich aus."

Was macht diese Lösung besonders?

Sie ist „Open Source" (Offen und frei): Viele der besten KI-Systeme sind wie verschlossene Tresore – nur wenige Firmen dürfen sie nutzen, und man weiß nicht genau, was drin passiert. Dieses neue System ist wie ein offenes Kochrezept. Jeder kann es herunterladen, es funktioniert auf eigenen Computern und niemand muss die sensiblen Patientendaten ins Internet hochladen. Das ist wie ein Sicherheitskoffer, der direkt im Krankenhaus bleibt.
Sie denkt in Zeitreihen: Die KI wurde speziell trainiert, nicht nur einen Bericht zu lesen, sondern zwei Berichte hintereinander zu vergleichen. Sie versteht, dass ein Befund von heute mit einem von vor drei Monaten zusammenhängt.
Sie spricht „Arztdeutsch": Die Forscher haben dem KI-Modell (ein Modell namens Qwen2.5) beigebracht, wie Radiologen schreiben. Es kennt die Regeln, wie man Tumore misst und benennt (die sogenannten RECIST-Kriterien).

Wie gut funktioniert es?

Die Forscher haben 50 Paare von Berichten (also 100 Berichte insgesamt) getestet. Das Ergebnis war beeindruckend:

Bei den Haupt-Tumoren (die „Target-Läsionen") hat die KI fast in jedem Fall (über 93 %) die richtigen Zahlen und Namen aus dem Text geholt.
Bei kleineren oder neuen Tumoren war sie ebenfalls sehr präzise (über 94 %).

Man könnte sagen: Wenn ein menschlicher Arzt den Bericht liest und die KI den Bericht liest, stimmen ihre Notizen in über 90 % der Fälle überein.

Warum ist das wichtig?

Früher war es extrem schwer, aus diesen tausenden von Arztbriefen große Datenmengen für die Forschung zu sammeln. Es war wie der Versuch, ein Puzzle aus tausenden verschiedenen Puzzleteilen zu bauen, ohne die Anleitung zu haben.

Mit diesem neuen Werkzeug können Forscher jetzt automatisch und sicher herausfinden: „Wie sprechen Patienten auf eine bestimmte Behandlung an?" oder „Wie schnell wachsen Tumore im Durchschnitt?" Das hilft, bessere Medikamente zu entwickeln und die Behandlung für zukünftige Patienten zu verbessern – alles ohne die Privatsphäre der Patienten zu gefährden.

Zusammenfassung
Die Forscher haben einen digitalen Assistenten gebaut, der wie ein super-scharfer Lesebrillen-Träger funktioniert. Er nimmt die chaotischen, schriftlichen Berichte von Ärzten, ordnet sie chronologisch und zieht die wichtigen Fakten über Krebsverläufe heraus. Und das Beste: Er macht das alles im eigenen Haus des Krankenhauses, sicher und ohne Datenlecks. Ein großer Schritt für die Krebsforschung!

Tracking Cancer Through Text: Longitudinal Extraction From Radiology Reports Using Open-Source Large Language Models

Technische Zusammenfassung: Longitudinale Extraktion aus radiologischen Berichten mittels Open-Source-LLMs

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Tracking Cancer Through Text: Longitudinal Extraction From Radiology Reports Using Open-Source Large Language Models

Technische Zusammenfassung: Longitudinale Extraktion aus radiologischen Berichten mittels Open-Source-LLMs

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance