Tracking Cancer Through Text: Longitudinal Extraction From Radiology Reports Using Open-Source Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Het Verborgen Verhaal van Kanker: Hoe AI de Medische Rapporten Leest

Stel je voor dat je een enorm archief hebt met duizenden verhalen. Deze verhalen zijn geschreven door artsen (radiologen) en vertellen het verhaal van hoe kanker in een patiënt zich gedraagt: groeit het? Krimpt het? Is er nieuwe kanker verschenen?

Het probleem is dat deze verhalen niet in nette tabellen staan, maar in vrije, ongestructureerde teksten. Het is alsof je duizenden brieven moet lezen om te weten wie er ziek is en hoe het gaat. Dat is voor een computer heel lastig, en voor een mens veel te veel werk.

De Oplossing: Een Slimme, Privé-Detective

In dit onderzoek hebben de auteurs (Luc en Alessa) een nieuwe manier bedacht om deze verhalen automatisch te lezen en om te zetten in duidelijke data. Ze hebben een kunstmatige intelligentie (AI) gebouwd die fungeert als een super-slimme detective.

Hier is hoe het werkt, vertaald in alledaagse termen:

1. De "Privé-Detective" (Open Source AI)

Veel slimme AI's zijn als dure, gesloten kasten die je alleen kunt huren van grote tech-bedrijven. Je mag de inhoud niet zien en je mag je patiëntgegevens niet daarheen sturen, omdat dat onveilig is voor de privacy.

De auteurs hebben echter gekozen voor een openbare, gratis detective (een model genaamd qwen2.5-72b).

De analogie: Stel je voor dat je een detective inhuurt. De meeste detectives werken alleen in hun eigen kantoor (de cloud). Deze detective werkt echter in jouw eigen huis. Je geeft haar de dossiers, ze leest ze, en het resultaat blijft bij jou. Niemand anders ziet de patiëntgegevens. Dit is wat ze "lokaal deployen" noemen.

2. Het Koppelen van Verhalen (Longitudinale Extractie)

Kanker is geen statisch verhaal; het verandert in de tijd. Een arts schrijft in januari: "Er is een tumor van 2 cm." In juni schrijft hij: "De tumor is nu 1,5 cm."

De uitdaging: Een simpele computer ziet dit als twee losse zinnen. Een slimme detective moet begrijpen dat het dezelfde tumor is die kleiner is geworden.
De oplossing: Het systeem leest twee rapporten tegelijk (zoals het lezen van hoofdstuk 1 en hoofdstuk 2 van een boek). Het koppelt de oude tumor aan de nieuwe meting. Het houdt de "naam" van de tumor stabiel, zodat je precies kunt zien hoe hij zich ontwikkelt.

3. De Drie Soorten "Schurken"

De AI zoekt in de tekst naar drie soorten kankergroei, net zoals een detective drie soorten verdachten zoekt:

De Hoofdschurk (Target Lesions): De bekende tumoren die je in de gaten houdt.
De Bij-schurken (Non-Target Lesions): Andere plekken die je ook in de gaten houdt, maar die minder precies gemeten hoeven te worden.
De Nieuwe Schurken (New Lesions): Tumoren die er voorheen niet waren, maar nu wel verschenen zijn.

4. Hoe goed werkt het? (De Uitslag)

De auteurs hebben dit systeem getest op 50 paren van Nederlandse CT-rapporten (borst- en buikscan). Ze lieten twee menselijke experts de rapporten lezen en vergeleken dit met wat de AI deed.

Het resultaat? De AI was bijna net zo goed als de mens.

Bij het vinden van de juiste tumoren en het meten van de grootte zat de AI in 93% tot 95% van de gevallen perfect.
Het systeem kon zelfs complexe zinnen begrijpen, zoals "niet meetbaar" of "verdwenen", en dit correct noteren.

Waarom is dit belangrijk?

Stel je voor dat je in plaats van 50 rapporten, miljoenen rapporten kunt lezen.

Voor onderzoek: Artsen kunnen in één klap zien hoe een behandeling werkt bij duizenden mensen, in plaats van jarenlang handmatig data te verzamelen.
Voor privacy: Omdat de AI in het ziekenhuis zelf draait (niet in de cloud), hoeven patiëntgegevens het ziekenhuis nooit te verlaten.
Voor de toekomst: Het bewijst dat je geen dure, gesloten systemen nodig hebt om medische data slim te maken. Gratis, open software kan net zo goed werken.

Kortom:
Deze paper laat zien dat we met een slimme, lokale AI de "rommelige" medische verhalen kunnen omtoveren in heldere, opvolgbare data. Het is alsof we een vertaler hebben die niet alleen vertaalt, maar ook begrijpt dat het verhaal van vandaag het vervolg is op het verhaal van gisteren, en dat alles veilig in de kast blijft liggen.

Tracking Cancer Through Text: Longitudinal Extraction From Radiology Reports Using Open-Source Large Language Models

1. De "Privé-Detective" (Open Source AI)

2. Het Koppelen van Verhalen (Longitudinale Extractie)

3. De Drie Soorten "Schurken"

4. Hoe goed werkt het? (De Uitslag)

Waarom is dit belangrijk?

Probleemstelling

Methodologie

Kernbijdragen

Resultaten

Betekenis en Conclusie

Tracking Cancer Through Text: Longitudinal Extraction From Radiology Reports Using Open-Source Large Language Models

1. De "Privé-Detective" (Open Source AI)

2. Het Koppelen van Verhalen (Longitudinale Extractie)

3. De Drie Soorten "Schurken"

4. Hoe goed werkt het? (De Uitslag)

Waarom is dit belangrijk?

Probleemstelling

Methodologie

Kernbijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance