Biomedical Large Language Models and Prompt Engineering for Causality Assessment of Individual Case Safety Reports in Pharmacovigilance

Deze studie concludeert dat hoewel biomedische grote taalmodellen in combinatie met prompt engineering en causale algoritmes betere resultaten laten zien dan algemene modellen, ze nog steeds onvoldoende betrouwbaar zijn voor de causale beoordeling van individuele veiligheidsrapporten in de farmacovigilantie.

Heckmann, N. S., Papoutsi, D. G., Barbieri, M. A., Battini, V., Molgaard, S. N., Schmidt, S. O., Melskens, L., Sessa, M.

Gepubliceerd 2026-02-24
📖 5 min leestijd🧠 Diepgaand
⚕️

Dit is een AI-gegenereerde uitleg van een preprint die niet peer-reviewed is. Dit is geen medisch advies. Neem geen gezondheidsbeslissingen op basis van deze inhoud. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

🧪 De Proef: Kunnen slimme computers artsen imiteren bij het vinden van de oorzaak van bijwerkingen?

Stel je voor dat een farmaceutisch bedrijf een nieuwe pil of vaccin op de markt brengt. Soms krijgen mensen last van ongewenste effecten (bijwerkingen). De grote vraag voor de "veiligheidswachters" (farmacovigilantie-experts) is dan: Is deze pil de boosdoener, of is het toeval?

Dit noemen ze causaliteitsbeoordeling. Het is als een detectivewerkje waarbij je alle feiten op een rijtje moet zetten om te bepalen of er een verband is.

🤖 De Proefpersonen: De "Biomedische" Chatbots

In dit onderzoek hebben de auteurs gekeken of speciale kunstmatige intelligentie (AI) dit detectivewerkje kan overnemen. Ze hebben geen gewone chatbot gebruikt (zoals een standaard Google-assistent), maar biomedische Large Language Models (LLMs).

  • De Metafoor: Stel je een gewone AI voor als een alwetende bibliotheekbeheerder die alles over de wereld weet, maar niet echt begrijpt hoe het menselijk lichaam werkt. Een biomedische AI is daarentegen als een student geneeskunde die duizenden medische boeken heeft gelezen. Hij kent de termen en de theorie, maar heeft nog geen praktijkervaring.

De onderzoekers hebben drie van deze "medische studenten" getest, elk met een andere manier van denken (prompt-strategieën), om te zien of ze net zo goed kunnen oordelen als echte menselijke experts.

🕵️‍♂️ De Opdracht: Twee Regelspelletjes

Om te bepalen of een pil schuld heeft, gebruiken experts twee verschillende regelspelletjes (algoritmen):

  1. De Naranjo-schaal: Dit is als een invulformulier met 10 ja/nee-vragen. Je telt punten op en krijgt een score. (Bijvoorbeeld: "Was de klacht er voor de pil?" +1 punt).
  2. De WHO-UMC methode: Dit is meer als een verhaal schrijven. Je moet alle feiten in een logisch verhaal gieten om tot een conclusie te komen.

De AI moest deze spelletjes spelen voor 150 echte patiëntcases (uit databases zoals FAERS en VAERS).

🏆 De Resultaten: Wie deed het het beste?

De uitkomsten waren een mix van hoop en teleurstelling:

  1. De Beste Presterende Combinatie:
    De combinatie van de "Medicine LLaMA-3 8B" (de slimste medische student) + Naranjo-formulier + Chain-of-Thought (een techniek waarbij de AI eerst stap-voor-stap nadenkt voordat hij antwoordt) deed het het beste.

    • Het resultaat: Ze kwamen in 64% van de gevallen tot hetzelfde oordeel als de menselijke experts. Dat is bijna het dubbele van wat gewone AI's eerder haalden!
  2. Waar liepen ze vast?
    Hoewel ze goed waren in het invullen van simpele vragen (zoals "Was de klacht al bekend?"), faalden ze op de lastige, menselijke onderdelen:

    • Tijdsverloop: "Kwam de klacht echt direct na de pil?" (De AI verwarde dit vaak).
    • Andere oorzaken: "Kon het misschien wel door iets anders komen?" (De AI zag vaak niet dat er een andere ziekte was).
    • Objectief bewijs: "Is er een bloedtest die het bewijst?" (De AI kon dit vaak niet vinden in de rommelige patiëntrapporten).
  3. De "Hallucinaties" en Fouten:
    De AI's maakten soms rare fouten:

    • Prompt Echoing: Soms herhaalde de AI zomaar de vraag in het antwoord, alsof hij de tekst van de prompt "na-keek" in plaats van echt na te denken.
    • Zelfgesprekken: Soms begon de AI met zichzelf te praten in een chat-stijl, wat de structuur verstoorde.
    • Te zeker: Zelfs als er niet genoeg informatie was, gaf de AI vaak een heel zeker antwoord ("Ja, het is de pil!"), terwijl een menselijke arts zou zeggen: "Weet ik niet, te weinig data."

💡 De Grote Leerlessen (De "Moraal" van het verhaal)

  1. De tool maakt het verschil: De AI deed het veel beter met het Naranjo-formulier (de lijst met vragen) dan met het WHO-verhaal.

    • Metafoor: De AI is goed in het invullen van een kruiswoordraadsel (strakke structuur), maar slecht in het schrijven van een detectiveverhaal (vrijer, meer context nodig). Als je de AI een strakke lijst geeft, presteert hij goed. Laat je hem een verhaal schrijven, raakt hij de draad kwijt.
  2. Kennis is niet alles: Dat de AI medische boeken had gelezen, hielp, maar het maakte hem niet perfect. Hij miste nog steeds het "gezond verstand" en de ervaring van een echte arts. Hij kon de regels volgen, maar begreep niet altijd de gevoel erachter.

  3. De Mens moet nog steeds de baas zijn: In landen als Nederland en België (en de hele EU) mag een AI nooit alleen beslissen of een pil gevaarlijk is. Er moet altijd een mens ("human-in-the-loop") zijn die de beslissing neemt.

    • Waarom? Omdat de AI soms een goed antwoord gaf, maar de reden daarvoor onduidelijk of foutief was. Voor een arts is het belangrijk om te weten waarom de AI tot een conclusie komt, niet alleen wat de conclusie is.

🚀 Conclusie

Deze studie laat zien dat we op de goede weg zijn. De "medische studenten" (biomedische AI's) worden steeds slimmer en kunnen de menselijke experts helpen met het snelle werk. Maar ze zijn nog niet klaar om de detective te spelen. Ze zijn als een zeer snelle, maar soms afwezige assistent die je helpt met het zoeken van feiten, maar die je nog steeds moet controleren voordat je de definitieve conclusie trekt.

De toekomst ligt in het combineren van de snelheid van de AI met het oordeel van de mens, zodat we veiliger medicijnen kunnen leveren.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →