Conformal Prediction for Risk-Controlled Medical Entity Extraction Across Clinical Domains

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat overmoedige of juist te verlegen assistent hebt die medische teksten voor je uitleest. Deze assistent is een Grote Taalmodel (LLM), een soort super-geavanceerde AI die kan lezen en schrijven als een arts.

Deze AI is geweldig in het vinden van belangrijke medische termen (zoals "allergie", "dosis" of "longontsteking") in twee heel verschillende soorten documenten:

Strakke medicijndossiers (zoals de officiële bijsluiters van de FDA).
Vrije artsverslagen (zoals röntgenfoto-besluiten, waar artsen snel en soms vaag schrijven).

Het probleem? De AI weet niet altijd hoe zeker ze moet zijn.
Soms denkt ze: "Ik weet dit voor 100% zeker!" terwijl ze het fout heeft (overmoed). Soms zegt ze: "Ik denk dat dit wel goed is, maar ik ben niet 100% zeker" terwijl ze het juist wel perfect goed heeft (te verlegen). In de medische wereld is dit gevaarlijk. Als de AI fouten maakt zonder dat we het merken, kunnen patiënten schade oplopen.

De Oplossing: De "Veiligheidsnet"-Methode

De auteurs van dit paper (Manil en Edward) hebben een slimme truc bedacht, genaamd Conformal Prediction. Je kunt dit zien als een slim veiligheidsnet of een kwaliteitscontroleur die altijd naast de AI staat.

In plaats van te vertrouwen op het gevoel van de AI ("Ik voel me zeker"), kijkt deze controleur naar de feiten en zegt: "Oké, we accepteren alleen de antwoorden waar we met 95% zekerheid voor kunnen garanderen dat ze goed zijn. Alles wat daar niet aan voldoet, sturen we terug naar een mens om na te kijken."

Dit werkt als een dynamische filter:

Als de AI in een bepaald gebied (bijv. bijsluiters) heel goed is, laat de filter bijna alles door.
Als de AI in een ander gebied (bijv. röntgenverslagen) veel fouten maakt, blokkeert de filter veel meer en zegt: "Dit is te riskant, laat een mens dit controleren."

Het Grote Verassende Ontdekking: De "Rolomkering"

Het meest interessante aan dit onderzoek is dat de AI zich in de twee werelden precies tegenovergesteld gedraagt:

In de strakke bijsluiters (FDA): De AI is hier te verlegen. Ze denkt dat ze fout zit, terwijl ze het vaak goed heeft.
- Analogie: Stel je een student voor die een heel makkelijk wiskundetoets maakt, maar blijft twijfelen aan elk antwoord en zegt: "Ik weet het niet zeker." De controleur zegt: "Geen probleem, we accepteren al je antwoorden, want je bent eigenlijk heel goed."
- Resultaat: De AI mag bijna alles doen.
In de vrije röntgenverslagen: Hier is de AI juist te overmoedig. Ze denkt dat ze het perfect weet, terwijl ze vaak fouten maakt (bijvoorbeeld een twijfelachtige uitspraak als "zeker" interpreteren).
- Analogie: Dezelfde student maakt nu een lastig, vaag verslag en zegt trots: "Ik weet het zeker!" terwijl hij eigenlijk giswerk doet. De controleur zegt: "Stop! Je bent hier te zelfverzekerd. We gooien 60% van je antwoorden weg en laten een mens het controleren."
- Resultaat: De AI moet veel meer stoppen en mensen moeten veel meer controleren.

Waarom is dit belangrijk?

Vroeger dachten mensen: "Als een AI 90% goed is, dan is hij overal 90% goed." Dit paper laat zien dat dat niet waar is.

Geen "one-size-fits-all": Je kunt niet dezelfde veiligheidsregels gebruiken voor een strakke bijsluiter en een losse artsbrief.
De "Sweep"-analyse: De onderzoekers hebben gekeken wat er gebeurt als je de lat hoger of lager legt. Ze zagen dat er een scherp kantelpunt is. Bij een bepaalde drempel (bijv. 10% fouten toestaan) gebeurt er iets drastisch: de ene AI (Llama) mag bijna alles door, terwijl de andere (GPT) nog steeds veel moet blokkeren. Dit laat zien dat het niet alleen gaat om hoe goed de AI is, maar ook om hoe goed ze haar eigen fouten kan herkennen.

Conclusie in het Kort

Dit onderzoek leert ons dat we AI in de zorg niet blindelings moeten vertrouwen op haar "zekerheidsgevoel". In plaats daarvan moeten we slimme veiligheidsnetten bouwen die zich aanpassen aan het type document:

Bij strakke documenten: Laat de AI vrijer werken.
Bij vrije, complexe teksten: Laat de AI veel meer stoppen en vraag een mens om te controleren.

Zo zorgen we dat de technologie veilig blijft, zonder dat we de voordelen van de AI verliezen. Het is alsof je een auto met een slimme rem hebt: op een leeg parkeerterrein (bijsluiter) rem je niet, maar op een drukke schoolstraat (röntgenverslag) rem je direct en hard.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Conformal Prediction for Risk-Controlled Medical Entity Extraction Across Clinical Domains" in het Nederlands.

Probleemstelling

Grote Taalmodellen (LLMs) worden steeds vaker ingezet voor het extraheren van gestructureerde entiteiten uit medische teksten (zoals medicijnlabels en radiologieverslagen). Hoewel ze hoge nauwkeurigheid bereiken, zijn hun vertrouwensscores (confidence scores) vaak slecht gekalibreerd.

Risico: Een model kan onjuiste extraheringen met een zeer hoge waarschijnlijkheid voorspellen (oververzekerdheid) of correcte extraheringen met lage waarschijnlijkheid (onderverzekerdheid).
Gevolg: In klinische settings kan dit leiden tot "stille fouten" die zich door de besluitvormingspipeline verspreiden.
Beperking van bestaande methoden: Standaard kalibratietechnieken (zoals temperature scaling) vereisen vastgehouden validatiegegevens en bieden geen formele garanties voor de dekking (coverage). Bovendien varieert de kalibratiekwaliteit sterk per taak, domein en entiteitstype, waardoor het moeilijk is om één betrouwbaarheidsdrempel te stellen.

Methodologie

De auteurs presenteren een raamwerk voor Conformal Prediction (CP) dat is gebaseerd op risicobeheersende voorspellingssets (Risk-Controlling Prediction Sets) van Bates et al. [3]. In plaats van te streven naar formele dekking, controleren ze de False Discovery Rate (FDR) voor geaccepteerde extraheringen.

Het proces bestaat uit vier stappen:

Extrahering met Token-Vertrouwen:
- Domein 1 (FDA Drug Labels): Gestructureerde data uit 1.000 FDA-labels (8 secties) verwerkt door GPT-4.1.
- Domein 2 (Radiologieverslagen): Vrij tekst uit MIMIC-CXR rapporten verwerkt door GPT-4.1 en Llama-4-Maverick, volgens het RadGraph-schema.
- Vertrouwensberekening: Voor elke entiteits-span wordt de geometrische gemiddelde van de softmax-probabiliteiten van de tokens gebruikt als span-vertrouwen. Dit is gevoeliger voor fouten dan het rekenkundig gemiddelde.
Verificatie:
- FDA: Gebruik van een "LLM-as-a-judge" (GPT-5-mini) via het VeriFact-framework. Alleen volledig geverifieerde feiten (score 3/3) tellen als correct.
- Radiologie: Vergelijking met door artsen geannoteerde "gold standard" data (exacte match van tekst en label).
Niet-overeenkomstsscore (Nonconformity Score):
- De logit-transformatie van de span-vertrouwen wordt gebruikt als score: $s_e = \text{logit}(\hat{p}_e)$ . Dit spreidt de hoge-vertrouwensregio uit.
FDR-Regelende Kalibratie:
- De dataset wordt opgesplitst in kalibratie- en testsets.
- Er wordt een drempelwaarde $\tau$ bepaald zodat het empirische FDR op de kalibratieset niet hoger is dan een vooraf bepaald $\alpha$ (bijv. 0.05 of 0.10).
- Alleen extraheringen met een score boven deze drempel worden geaccepteerd; de rest wordt gemarkeerd voor menselijke controle. Dit garandeert dat het verwachte percentage fouten onder de geaccepteerde set begrensd is door $\alpha$ .

Belangrijkste Bijdragen

Formele FDR-garanties: Een conformal prediction-raamwerk dat eindige-steekproef-garanties biedt voor de foutenratio bij medische entiteitsextractie in heterogene klinische domeinen.
Omgekeerde Kalibratie: Het empirische bewijs dat de richting van de miscalibratie omkeert tussen domeinen: modellen zijn onderverzekerd op gestructureerde FDA-labels maar oververzekerd op vrije tekst in radiologieverslagen.
Sweep-analyse: Een analyse over verschillende $\alpha$ -waarden die scherpe overgangen in acceptatiegedrag blootlegt, wat de onderliggende foutstructuur van elk domein onthult.
Modelafhankelijkheid: Het inzicht dat FDR-drempels niet alleen afhangen van de extractienauwkeurigheid (F1-score), maar vooral van hoe goed de vertrouwensscores correcte van onjuiste extraheringen kunnen onderscheiden.

Resultaten

1. FDA Drug Labels (Gestructureerd)

Kalibratie: GPT-4.1 is systematisch onderverzekerd (predicties zijn conservatiever dan de werkelijke nauwkeurigheid). De Expected Calibration Error (ECE) is laag (0.012–0.055) voor de meeste secties.
Uitzondering: De sectie "Pediatric Use" toont oververzekerdheid (hoge ECE van 0.214) en een lage basisnauwkeurigheid (74,3%).
FDR-resultaten:
- De globale basis-FDR is slechts 2,3%. Voor $\alpha \ge 0.03$ worden bijna alle extraheringen geaccepteerd.
- Per-sectie analyse: Bij $\alpha = 0.05$ moeten secties met hogere foutenmarges (zoals "Drug Interactions" en "Contraindications") 41-60% van de extraheringen verwerpen. "Pediatric Use" vereist 100% verwerping omdat geen enkele drempel de FDR onder 0,05 kan brengen.

2. Radiologieverslagen (Vrije tekst)

Kalibratie: Beide modellen (GPT-4.1 en Llama-4-Maverick) zijn systematisch oververzekerd. Ze geven hoge waarschijnlijkheden aan onjuiste extraheringen.
Modelverschil: Llama-4-Maverick is beter gekalibreerd (lagere ECE) dan GPT-4.1, ondanks vergelijkbare F1-scores.
FDR-resultaten:
- Bij $\alpha = 0.05$ moeten beide modellen 100% van de extraheringen verwerpen (de basisfoutenratio is te hoog).
- Bij $\alpha = 0.10$ treedt een scherpe overgang op: Llama-4-Maverick accepteert 80,4% (19,6% verwerping), terwijl GPT-4.1 slechts 40,7% accepteert (59,3% verwerping).
- Per-categorie: Beide modellen verwerpen 100% van de "uncertain observations" (OBS-U), wat aangeeft dat deze categorie onbetrouwbaar is voor automatische acceptatie.

3. Cross-Domein Conclusie

De richting van de miscalibratie keert om afhankelijk van de documentstructuur. Gestructureerde teksten leiden tot conservatieve (onderverzekerde) modellen, terwijl complexe, vrije tekst leidt tot oververzekerdheid. Een universele kalibratiestrategie werkt niet; domeinspecifieke aanpassing is noodzakelijk.

Betekenis en Conclusie

De studie demonstreert dat kalibratie geen globale eigenschap van een model is, maar sterk afhankelijk is van de documentstructuur, het extractiecategorie en de modelarchitectuur.

Klinische Implementatie: Conformal prediction biedt een robuuste methode om LLM's veilig in te zetten door formele garanties te geven over het percentage fouten in de geaccepteerde output.
Adaptiviteit: Het raamwerk past zich automatisch aan: het wordt conservatiever bij slecht gekalibreerde modellen (zoals bij radiologie) en permissiever bij goed gekalibreerde modellen (zoals bij FDA-labels).
Toekomst: De auteurs wijzen op de noodzaak van methoden voor black-box modellen (zonder log-probabiliteiten) en verdere validatie in klinische workflows om de impact op de besluitvorming te meten.

Kortom, dit werk legt de basis voor veilige, risicogestuurde implementatie van LLM's in de zorg, waarbij de betrouwbaarheid wordt gewaarborgd via statistische garanties in plaats van alleen op basis van gemiddelde nauwkeurigheid.

Conformal Prediction for Risk-Controlled Medical Entity Extraction Across Clinical Domains

De Oplossing: De "Veiligheidsnet"-Methode

Het Grote Verassende Ontdekking: De "Rolomkering"

Waarom is dit belangrijk?

Conclusie in het Kort

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

1. FDA Drug Labels (Gestructureerd)

2. Radiologieverslagen (Vrije tekst)

3. Cross-Domein Conclusie

Betekenis en Conclusie

Meer zoals dit

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models