Leveraging Open-Source Large Language Models for Clinical Information Extraction in Resource-Constrained Settings

Each language version is independently generated for its own context, not a direct translation.

Titel: De Slimme Vertalers voor Medische Rapporten (Zonder de Geheime Recepten)

Stel je voor dat artsen en ziekenhuizen elke dag duizenden medische rapporten schrijven. Deze rapporten zitten vol met goudmijnen aan informatie: diagnoses, medicijnen, en resultaten van scans. Maar er is een groot probleem: deze rapporten zijn vaak geschreven als een rommelig verhaal in vakjargon, niet als een nette lijst met gegevens. Voor computers is het alsof ze proberen een boek te lezen dat in een vreemde taal is geschreven en vol staat met krabbels.

Vroeger gebruikten computers simpele regels om deze informatie te halen, maar dat werkte vaak niet goed. Vervolgens kwamen er supersterke "AI-hersenen" (grote taalmodellen) die dit probleem konden oplossen. Maar de meeste van die slimme hersenen zijn geprivatiseerd. Dat betekent dat je ze moet huren van grote bedrijven, je de rapporten naar hun servers moet sturen (wat privacy-problemen geeft) en je niet weet hoe ze precies werken.

De Oplossing: Open-Source AI in Eigen Huis

De auteurs van dit onderzoek (van het Radboudumc in Nijmegen) wilden een oplossing die privacy-waardig, transparant en goedkoop is. Ze hebben gekeken naar open-source modellen. Denk hierbij niet aan een gesloten kast waar je niet bij mag, maar aan een open keuken waar iedereen het recept mag zien en zelf kan koken.

Ze hebben een nieuw gereedschap gebouwd, genaamd llm extractinator.

De Metafoor: Stel je voor dat dit een slimme robot-assistent is die je in je eigen ziekenhuis kunt zetten. Je geeft hem een stapel medische rapporten en een lijstje met wat je wilt weten (bijv. "Is er een tumor?" of "Wat is de grootte?"). De robot leest het rapport en vult automatisch een nette tabel in.

Wat hebben ze ontdekt?

Ze hebben negen verschillende soorten "open-source hersenen" getest op 28 verschillende taken, allemaal in het Nederlands. Hier zijn de belangrijkste bevindingen, vertaald naar alledaagse taal:

Groot is niet altijd beter (maar wel vaak wel):
De grootste modellen (zoals Llama-3.3-70B) waren de slimsten, maar ze zijn ook zwaar en hebben krachtige computers nodig om te draaien. Interessant genoeg deden de iets kleinere modellen (met ongeveer 14 miljard "neuronen", zoals Phi-4 en Qwen-2.5) bijna net zo goed.
- Analogie: Het is alsof je een Formule 1-auto (het grootste model) hebt die iets sneller is, maar een degelijke touringcar (het 14B model) doet het voor 95% van de rit net zo goed, terwijl hij veel minder benzine (rekenkracht) verbruikt. Voor ziekenhuizen met beperkte budgetten is de touringcar vaak de betere keuze.
Vertalen is een valstrik:
Een grote vraag was: "Zouden we de Nederlandse rapporten eerst naar het Engels moeten vertalen, omdat de AI's daar beter in zijn?"
Het antwoord was een hard NEE.
- De Metafoor: Het is alsof je een complexe medische tekst laat vertalen door een machine, en dan pas aan de dokter vraagt. Bij het vertalen gaan subtiele nuances verloren of ontstaan er rare fouten. De AI presteerde veel slechter als ze eerst vertaalden.
- Conclusie: Je moet de AI direct in het Nederlands laten werken. "Native" is beter dan "vertaald".
Wat kunnen ze goed, en wat niet?
- Goed: Het halen van cijfers en feiten. Als er staat "de tumor is 3 cm groot", halen de AI's dit perfect. Ook het beantwoorden van ja/nee-vragen ging goed.
- Moeilijk: Het vinden van specifieke medische termen in een lange tekst (zoals het markeren van elk woord dat een ziekte is). Hier faalden de modellen een beetje.
- De "Grote Baan" (RoBERTa): Er was een oude, gespecialiseerde AI die wel getraind was op deze specifieke taken. Die deed het overall iets beter, maar die had wel duizenden voorbeelden nodig om te leren. De nieuwe open-source AI's deden het bijna net zo goed zonder ooit te hebben geoefend (dit noemen ze "zero-shot").

Waarom is dit belangrijk voor ons?

Dit onderzoek toont aan dat ziekenhuizen in Nederland (en andere landen met minder talen) niet afhankelijk hoeven te zijn van dure, buitenlandse tech-bedrijven om hun data te ordenen.

Met dit nieuwe gereedschap (llm extractinator) en de juiste open-source modellen kunnen ziekenhuizen:

Hun eigen data veilig houden (binnen de muren van het ziekenhuis).
Geen dure licentiekosten betalen.
Toch gebruikmaken van de slimste technologie die er is.

Samenvattend:
De onderzoekers hebben een sleutel gebouwd die de deur opent naar de informatie in onze medische rapporten. Ze hebben bewezen dat je geen "geheime, dure sleutel" nodig hebt; een open, transparante sleutel werkt net zo goed, is veiliger voor de privacy van de patiënt, en werkt het beste als je hem direct in het Nederlands gebruikt.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Leveraging Open-Source Large Language Models for Clinical Information Extraction in Resource-Constrained Settings", geschreven in het Nederlands.

Probleemstelling

Medische rapporten bevatten waardevolle, maar vaak ongestructureerde klinische informatie in domeinspecifieke taal. Het extraheren van gestructureerde data uit deze teksten is cruciaal voor AI-toepassingen in de gezondheidszorg. Hoewel proprietaire Large Language Models (LLMs) zoals GPT-4 veelbelovende resultaten laten zien, zijn deze ongeschikt voor veel zorginstellingen vanwege:

Privacy en transparantie: Het sturen van patiëntdata naar externe servers via API's schendt vaak strikte privacyregels (zoals AVG/GDPR).
Transparantie: De trainingsdata en interne werking zijn vaak een "black box".
Taalbeperkingen: Open-source modellen presteren vaak slechter in middels- tot laag-resourcetalen (zoals het Nederlands) en in medische contexten, omdat ze voornamelijk zijn getraind op Engels en andere hoog-resourcetalen.

De huidige oplossingen, zoals fine-tuned BERT-modellen, vereisen grote hoeveelheden gelabelde trainingsdata per taak, wat schaars is in veel settings.

Methodologie

De auteurs hebben een systematische evaluatie uitgevoerd van negen open-source generatieve LLMs op het DRAGON-benchmark. Dit benchmark bestaat uit 28.824 geannoteerde medische rapporten uit vijf Nederlandse zorgcentra, verdeeld over 28 klinische taken (classificatie, regressie en Named Entity Recognition).

Kerncomponenten van de studie:

Framework (llm extractinator): De auteurs ontwikkelden een open-source framework dat het gebruik van LLMs voor informatievergaring automatiseert.
- Het werkt taalagnostisch en vereist slechts een invoerdataset en een Taskfile (JSON-bestand met taakbeschrijving en gewenst outputformaat).
- Het forceert gestructureerde JSON-output, wat de evaluatie en integratie in downstream pipelines vergemakkelijkt.
- Het gebruikt Zero-shot learning: modellen worden getest zonder taak-specifieke fine-tuning of voorbeelden in de prompt (in-context learning), puur op basis van hun vooringestelde kennis.
- Het framework past de contextlengte dynamisch aan en ondersteunt lokale inferentie via Ollama.
Geselecteerde Modellen: Negen modellen werden getest, variërend in grootte (3B tot 70B parameters):
- Top-tier: Llama-3.3-70B, Phi-4-14B, Qwen-2.5-14B, DeepSeek-R1-14B.
- Midden-tier: Mistral-Nemo-12B, Gemma-2-9B, Llama-3.1-8B.
- Low-tier: Llama-3.2-3B, Gemma-2-2B.
- Alle modellen werden uitgevoerd in 4-bit gekwantiseerde vorm om op consumenten-GPU's (12GB VRAM) te kunnen draaien.
Experimentele Opzet:
- Zero-shot setting: Geen fine-tuning.
- Vertalingsexperiment: Er werd getest of het vertalen van de Nederlandse invoer naar Engels voorafgaand aan de inferentie de prestaties verbeterde (gebaseerd op de hypothese dat modellen beter presteren in hun trainingsdominant taal).
- Vergelijking: Resultaten werden vergeleken met een state-of-the-art fine-tuned RoBERTa-baseline (DRAGON RoBERTa Large).

Belangrijkste Resultaten

1. Prestaties per Modelgrootte:

Top-performers: Modellen met ongeveer 14 miljard parameters (Phi-4, Qwen-2.5, DeepSeek-R1) en het 70B-parameter model (Llama-3.3) behaalden de beste resultaten.
- Llama-3.3-70B behaalde de hoogste totale score ( $S_{DRAGON} = 0.760$ ), met "Excellent" prestaties op 12 van de 28 taken.
- Phi-4-14B ($0.751 $), **Qwen-2.5-14B** ($ 0.748 $) en **DeepSeek-R1-14B** ($ 0.744$) presteerden zeer competitief, vaak dichtbij de 70B-modellen, maar met aanzienlijk lagere rekeneisen.
Midden-tier: Gemma-2-9B en Mistral-Nemo-12B behaalden een score van $0.688$.
Schaalbeperking: Kleinere modellen (3B en 2B parameters) faalden consequent, met scores die vaak in het "Fail"-gebied lagen of geen geldige JSON-output produceerden. Dit stelt een praktische ondergrens voor zero-shot klinische NLP in het Nederlands.

2. Prestaties per Taaktype:

Regressie (Numerieke waarden): Alle modellen presteerden uitstekend op taken zoals het extraheren van tumorgroottes of PSA-waarden (gemiddelde score > 0.87). Generatieve modellen lijken hierin sterk door hun "copy-and-reason" capaciteiten.
Classificatie: Resultaten varieerden sterk. Sommige taken (zoals het detecteren van longknobbels) werden goed gedaan, terwijl andere (zoals histopathologische case-selectie) dicht bij willekeur lagen.
Named Entity Recognition (NER): Dit was het zwakke punt. Geen enkel model behaalde een F1-score boven de 0,47. De vereiste token-level output in JSON bleek niet goed te passen bij de generatieve aard van deze modellen.

3. Vergelijking met Fine-tuned Baselines:

De fine-tuned RoBERTa-baseline behaalde een hogere totale score ($0.819 $) dan de beste LLM ($ 0.760$).
Echter, de LLM (Llama-3.3) presteerde op 14 van de 28 taken beter dan RoBERTa, vooral op regressie- en complexe inferentietaken. RoBERTa won vooral op NER-taken.
Cruciaal: De LLMs deden dit zonder enige training op de specifieke dataset (zero-shot), terwijl RoBERTa daarvoor gelabelde data nodig had.

4. Impact van Vertaling:

Het vertalen van Nederlandse rapporten naar Engels voorafgaand aan de inferentie leidde tot een statistisch significant prestatieverlies voor alle geteste modellen.
- Voor Phi-4 daalde de score van $0.751 $naar$ 0.533$.
- Voor Llama-3.1 daalde de score van $0.588 $naar$ 0.337$.
Conclusie: Vertaling introduceert ruis en verlies van klinische nuances; native-taal inferentie is essentieel.

Belangrijkste Bijdragen

llm extractinator Framework: Een publiek beschikbaar, schaalbaar en gebruiksvriendelijk framework dat de drempel verlaagt voor het toepassen van open-source LLMs op medische data. Het zorgt voor gestructureerde output en automatiseert de workflow.
Uitgebreide Evaluatie: De eerste systematische zero-shot evaluatie van negen open-source LLMs op een groot, Nederlands medisch benchmark (DRAGON).
Inzicht in Taal- en Taakafhankelijkheid: Het bewijs dat native-taalverwerking cruciaal is en dat kleinere open-source modellen (14B) zeer competitief kunnen zijn met veel grotere modellen voor specifieke klinische taken.

Betekenis en Conclusie

De studie toont aan dat open-source generatieve LLMs, wanneer ze worden gebruikt met het juiste framework, een effectief, schaalbaar en privacy-bewust alternatief bieden voor klinische informatievergaring in middels- en laag-resourcetalen.

Privacy: Door lokale inferentie kunnen ziekenhuizen patiëntdata binnen hun eigen infrastructuur houden.
Efficiëntie: Modellen van 14 miljard parameters bieden een uitstekende balans tussen prestatie en rekeneisen, waardoor ze haalbaar zijn voor ziekenhuizen zonder high-end GPU-clusters.
Toekomstperspectief: Hoewel fine-tuned modellen nog steeds iets beter presteren op specifieke klassificatietaken, bieden zero-shot LLMs een "plug-and-play" oplossing die niet afhankelijk is van grote gelabelde datasets. Dit is vooral waardevol in settings waar data schaars is of waar taken snel veranderen.

De auteurs concluderen dat de combinatie van native-taal inferentie, open-source modellen en gestructureerde frameworks de weg vrijmaakt voor bredere adoptie van AI in de gezondheidszorg, zonder de privacy te schenden.

Leveraging Open-Source Large Language Models for Clinical Information Extraction in Resource-Constrained Settings

Probleemstelling

Methodologie

Belangrijkste Resultaten

Belangrijkste Bijdragen

Betekenis en Conclusie

Meer zoals dit

Toward Adaptive Large Language Models Structured Pruning via Hybrid-grained Weight Importance Assessment

Leveraging GANs for citation intent classification and its impact on citation network analysis

Are you sure? Measuring models bias in content moderation through uncertainty

Markovian Transformers for Informative Language Modeling

Embodied AI with Foundation Models for Mobile Service Robots: A Systematic Review