Conformal Prediction for Risk-Controlled Medical Entity Extraction Across Clinical Domains

Deze studie introduceert een conformal prediction-framework dat, ondanks variaties in modelkalibratie tussen gestructureerde FDA-documenten en vrije radiologieteksten, betrouwbare coverage-garanties biedt voor veilige medische entiteitsextractie met grote taalmodellen in klinische toepassingen.

Manil Shrestha, Edward Kim

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat overmoedige of juist te verlegen assistent hebt die medische teksten voor je uitleest. Deze assistent is een Grote Taalmodel (LLM), een soort super-geavanceerde AI die kan lezen en schrijven als een arts.

Deze AI is geweldig in het vinden van belangrijke medische termen (zoals "allergie", "dosis" of "longontsteking") in twee heel verschillende soorten documenten:

  1. Strakke medicijndossiers (zoals de officiële bijsluiters van de FDA).
  2. Vrije artsverslagen (zoals röntgenfoto-besluiten, waar artsen snel en soms vaag schrijven).

Het probleem? De AI weet niet altijd hoe zeker ze moet zijn.
Soms denkt ze: "Ik weet dit voor 100% zeker!" terwijl ze het fout heeft (overmoed). Soms zegt ze: "Ik denk dat dit wel goed is, maar ik ben niet 100% zeker" terwijl ze het juist wel perfect goed heeft (te verlegen). In de medische wereld is dit gevaarlijk. Als de AI fouten maakt zonder dat we het merken, kunnen patiënten schade oplopen.

De Oplossing: De "Veiligheidsnet"-Methode

De auteurs van dit paper (Manil en Edward) hebben een slimme truc bedacht, genaamd Conformal Prediction. Je kunt dit zien als een slim veiligheidsnet of een kwaliteitscontroleur die altijd naast de AI staat.

In plaats van te vertrouwen op het gevoel van de AI ("Ik voel me zeker"), kijkt deze controleur naar de feiten en zegt: "Oké, we accepteren alleen de antwoorden waar we met 95% zekerheid voor kunnen garanderen dat ze goed zijn. Alles wat daar niet aan voldoet, sturen we terug naar een mens om na te kijken."

Dit werkt als een dynamische filter:

  • Als de AI in een bepaald gebied (bijv. bijsluiters) heel goed is, laat de filter bijna alles door.
  • Als de AI in een ander gebied (bijv. röntgenverslagen) veel fouten maakt, blokkeert de filter veel meer en zegt: "Dit is te riskant, laat een mens dit controleren."

Het Grote Verassende Ontdekking: De "Rolomkering"

Het meest interessante aan dit onderzoek is dat de AI zich in de twee werelden precies tegenovergesteld gedraagt:

  1. In de strakke bijsluiters (FDA): De AI is hier te verlegen. Ze denkt dat ze fout zit, terwijl ze het vaak goed heeft.

    • Analogie: Stel je een student voor die een heel makkelijk wiskundetoets maakt, maar blijft twijfelen aan elk antwoord en zegt: "Ik weet het niet zeker." De controleur zegt: "Geen probleem, we accepteren al je antwoorden, want je bent eigenlijk heel goed."
    • Resultaat: De AI mag bijna alles doen.
  2. In de vrije röntgenverslagen: Hier is de AI juist te overmoedig. Ze denkt dat ze het perfect weet, terwijl ze vaak fouten maakt (bijvoorbeeld een twijfelachtige uitspraak als "zeker" interpreteren).

    • Analogie: Dezelfde student maakt nu een lastig, vaag verslag en zegt trots: "Ik weet het zeker!" terwijl hij eigenlijk giswerk doet. De controleur zegt: "Stop! Je bent hier te zelfverzekerd. We gooien 60% van je antwoorden weg en laten een mens het controleren."
    • Resultaat: De AI moet veel meer stoppen en mensen moeten veel meer controleren.

Waarom is dit belangrijk?

Vroeger dachten mensen: "Als een AI 90% goed is, dan is hij overal 90% goed." Dit paper laat zien dat dat niet waar is.

  • Geen "one-size-fits-all": Je kunt niet dezelfde veiligheidsregels gebruiken voor een strakke bijsluiter en een losse artsbrief.
  • De "Sweep"-analyse: De onderzoekers hebben gekeken wat er gebeurt als je de lat hoger of lager legt. Ze zagen dat er een scherp kantelpunt is. Bij een bepaalde drempel (bijv. 10% fouten toestaan) gebeurt er iets drastisch: de ene AI (Llama) mag bijna alles door, terwijl de andere (GPT) nog steeds veel moet blokkeren. Dit laat zien dat het niet alleen gaat om hoe goed de AI is, maar ook om hoe goed ze haar eigen fouten kan herkennen.

Conclusie in het Kort

Dit onderzoek leert ons dat we AI in de zorg niet blindelings moeten vertrouwen op haar "zekerheidsgevoel". In plaats daarvan moeten we slimme veiligheidsnetten bouwen die zich aanpassen aan het type document:

  • Bij strakke documenten: Laat de AI vrijer werken.
  • Bij vrije, complexe teksten: Laat de AI veel meer stoppen en vraag een mens om te controleren.

Zo zorgen we dat de technologie veilig blijft, zonder dat we de voordelen van de AI verliezen. Het is alsof je een auto met een slimme rem hebt: op een leeg parkeerterrein (bijsluiter) rem je niet, maar op een drukke schoolstraat (röntgenverslag) rem je direct en hard.