Biomedical Large Language Models and Prompt Engineering for Causality Assessment of Individual Case Safety Reports in Pharmacovigilance

⚕️

Dit is een AI-gegenereerde uitleg van een preprint die niet peer-reviewed is. Dit is geen medisch advies. Neem geen gezondheidsbeslissingen op basis van deze inhoud. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

🧪 De Proef: Kunnen slimme computers artsen imiteren bij het vinden van de oorzaak van bijwerkingen?

Stel je voor dat een farmaceutisch bedrijf een nieuwe pil of vaccin op de markt brengt. Soms krijgen mensen last van ongewenste effecten (bijwerkingen). De grote vraag voor de "veiligheidswachters" (farmacovigilantie-experts) is dan: Is deze pil de boosdoener, of is het toeval?

Dit noemen ze causaliteitsbeoordeling. Het is als een detectivewerkje waarbij je alle feiten op een rijtje moet zetten om te bepalen of er een verband is.

🤖 De Proefpersonen: De "Biomedische" Chatbots

In dit onderzoek hebben de auteurs gekeken of speciale kunstmatige intelligentie (AI) dit detectivewerkje kan overnemen. Ze hebben geen gewone chatbot gebruikt (zoals een standaard Google-assistent), maar biomedische Large Language Models (LLMs).

De Metafoor: Stel je een gewone AI voor als een alwetende bibliotheekbeheerder die alles over de wereld weet, maar niet echt begrijpt hoe het menselijk lichaam werkt. Een biomedische AI is daarentegen als een student geneeskunde die duizenden medische boeken heeft gelezen. Hij kent de termen en de theorie, maar heeft nog geen praktijkervaring.

De onderzoekers hebben drie van deze "medische studenten" getest, elk met een andere manier van denken (prompt-strategieën), om te zien of ze net zo goed kunnen oordelen als echte menselijke experts.

🕵️‍♂️ De Opdracht: Twee Regelspelletjes

Om te bepalen of een pil schuld heeft, gebruiken experts twee verschillende regelspelletjes (algoritmen):

De Naranjo-schaal: Dit is als een invulformulier met 10 ja/nee-vragen. Je telt punten op en krijgt een score. (Bijvoorbeeld: "Was de klacht er voor de pil?" +1 punt).
De WHO-UMC methode: Dit is meer als een verhaal schrijven. Je moet alle feiten in een logisch verhaal gieten om tot een conclusie te komen.

De AI moest deze spelletjes spelen voor 150 echte patiëntcases (uit databases zoals FAERS en VAERS).

🏆 De Resultaten: Wie deed het het beste?

De uitkomsten waren een mix van hoop en teleurstelling:

De Beste Presterende Combinatie:
De combinatie van de "Medicine LLaMA-3 8B" (de slimste medische student) + Naranjo-formulier + Chain-of-Thought (een techniek waarbij de AI eerst stap-voor-stap nadenkt voordat hij antwoordt) deed het het beste.
- Het resultaat: Ze kwamen in 64% van de gevallen tot hetzelfde oordeel als de menselijke experts. Dat is bijna het dubbele van wat gewone AI's eerder haalden!
Waar liepen ze vast?
Hoewel ze goed waren in het invullen van simpele vragen (zoals "Was de klacht al bekend?"), faalden ze op de lastige, menselijke onderdelen:
- Tijdsverloop: "Kwam de klacht echt direct na de pil?" (De AI verwarde dit vaak).
- Andere oorzaken: "Kon het misschien wel door iets anders komen?" (De AI zag vaak niet dat er een andere ziekte was).
- Objectief bewijs: "Is er een bloedtest die het bewijst?" (De AI kon dit vaak niet vinden in de rommelige patiëntrapporten).
De "Hallucinaties" en Fouten:
De AI's maakten soms rare fouten:
- Prompt Echoing: Soms herhaalde de AI zomaar de vraag in het antwoord, alsof hij de tekst van de prompt "na-keek" in plaats van echt na te denken.
- Zelfgesprekken: Soms begon de AI met zichzelf te praten in een chat-stijl, wat de structuur verstoorde.
- Te zeker: Zelfs als er niet genoeg informatie was, gaf de AI vaak een heel zeker antwoord ("Ja, het is de pil!"), terwijl een menselijke arts zou zeggen: "Weet ik niet, te weinig data."

💡 De Grote Leerlessen (De "Moraal" van het verhaal)

De tool maakt het verschil: De AI deed het veel beter met het Naranjo-formulier (de lijst met vragen) dan met het WHO-verhaal.
- Metafoor: De AI is goed in het invullen van een kruiswoordraadsel (strakke structuur), maar slecht in het schrijven van een detectiveverhaal (vrijer, meer context nodig). Als je de AI een strakke lijst geeft, presteert hij goed. Laat je hem een verhaal schrijven, raakt hij de draad kwijt.
Kennis is niet alles: Dat de AI medische boeken had gelezen, hielp, maar het maakte hem niet perfect. Hij miste nog steeds het "gezond verstand" en de ervaring van een echte arts. Hij kon de regels volgen, maar begreep niet altijd de gevoel erachter.
De Mens moet nog steeds de baas zijn: In landen als Nederland en België (en de hele EU) mag een AI nooit alleen beslissen of een pil gevaarlijk is. Er moet altijd een mens ("human-in-the-loop") zijn die de beslissing neemt.
- Waarom? Omdat de AI soms een goed antwoord gaf, maar de reden daarvoor onduidelijk of foutief was. Voor een arts is het belangrijk om te weten waarom de AI tot een conclusie komt, niet alleen wat de conclusie is.

🚀 Conclusie

Deze studie laat zien dat we op de goede weg zijn. De "medische studenten" (biomedische AI's) worden steeds slimmer en kunnen de menselijke experts helpen met het snelle werk. Maar ze zijn nog niet klaar om de detective te spelen. Ze zijn als een zeer snelle, maar soms afwezige assistent die je helpt met het zoeken van feiten, maar die je nog steeds moet controleren voordat je de definitieve conclusie trekt.

De toekomst ligt in het combineren van de snelheid van de AI met het oordeel van de mens, zodat we veiliger medicijnen kunnen leveren.

Biomedical Large Language Models and Prompt Engineering for Causality Assessment of Individual Case Safety Reports in Pharmacovigilance

🧪 De Proef: Kunnen slimme computers artsen imiteren bij het vinden van de oorzaak van bijwerkingen?

🤖 De Proefpersonen: De "Biomedische" Chatbots

🕵️‍♂️ De Opdracht: Twee Regelspelletjes

🏆 De Resultaten: Wie deed het het beste?

💡 De Grote Leerlessen (De "Moraal" van het verhaal)

🚀 Conclusie

Probleemstelling

Methodologie

Belangrijkste Resultaten

Bijdragen en Inzichten

Significantie en Conclusie

Biomedical Large Language Models and Prompt Engineering for Causality Assessment of Individual Case Safety Reports in Pharmacovigilance

🧪 De Proef: Kunnen slimme computers artsen imiteren bij het vinden van de oorzaak van bijwerkingen?

🤖 De Proefpersonen: De "Biomedische" Chatbots

🕵️‍♂️ De Opdracht: Twee Regelspelletjes

🏆 De Resultaten: Wie deed het het beste?

💡 De Grote Leerlessen (De "Moraal" van het verhaal)

🚀 Conclusie

Probleemstelling

Methodologie

Belangrijkste Resultaten

Bijdragen en Inzichten

Significantie en Conclusie

Meer zoals dit

Reusing Blood Samples from a Hospital-based Cohort to Apixaban Plasma Concentrations

Randomized controlled trials do not support efficacy of any of the tested doses of fluvoxamine in prevention of disease progression in adults with incipient non-severe COVID-19 disease: a case-study systematic review and meta-analysis

TTI-0102: A Novel Natural Controlled-Release Cysteamine Prodrug for Mitochondrial Disease and Cystinosis

A Phase 1, Single-Center, Randomized, Double-Blind, Placebo-Controlled, Multiple-Dose Escalation Study for the Evaluation of the Safety, Tolerability, and Pharmacokinetics of Recombinant Human Plasma Gelsolin (rhu-pGSN) Following Intravenous Administration to Healthy Volunteers

Adherence to CDC Antimicrobial Stewardship Core Elements and Barriers to stewardship practices among Healthcare Workers at a Tertiary Care Hospital Uttarakhand, India