From Protocol to Analysis Plan: Development and Validation of a Large Language Model Pipeline for Statistical Analysis Plan Generation using Artificial Intelligence (SAPAI)

⚕️

Dit is een AI-gegenereerde uitleg van een preprint die niet peer-reviewed is. Dit is geen medisch advies. Neem geen gezondheidsbeslissingen op basis van deze inhoud. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

🧠 De Slimme Schrijver die nog niet de Meester is

Over het bouwen van een AI-tool voor medische onderzoeksplannen

Stel je voor dat je een heel groot, complex bouwproject gaat starten: een klinische proef om een nieuw medicijn of een nieuwe therapie te testen. Voordat je ook maar één steen legt of één patiënt behandelt, moet je een bouwplan hebben. In de medische wereld heet dit een Statistisch Analyse Plan (SAP).

Dit plan is de "heilige graal" van het onderzoek. Het zegt precies:

Hoe we de gegevens gaan verzamelen.
Welke vragen we gaan stellen.
Hoe we de antwoorden gaan berekenen.
Wat we doen als er iets misgaat.

Zonder dit plan is het onderzoek niet geloofwaardig. Het is als een recept voor een taart: als je niet precies opschrijft hoeveel suiker erin moet, weet niemand of de taart lukt of dat je er later op kunt liegen ("Oh, ik dacht dat er meer suiker in zat!").

Het probleem: Het schrijven van zo'n plan is extreem saai, tijdrovend en moeilijk. Het is als het schrijven van een juridisch contract terwijl je ook nog wiskundige formules moet bedenken.

De oplossing? De onderzoekers van dit artikel hebben geprobeerd om Kunstmatige Intelligentie (AI) – specifiek de slimste chatbots van vandaag (zoals GPT-5, Claude en Gemini) – in te huren om dit plan voor hen te schrijven. Ze noemen hun tool SAPAI.

🛠️ Hoe hebben ze het aangepakt? (De "Prompt")

Stel je voor dat je een zeer getalenteerde, maar soms wat dromerige stagiair hebt. Als je tegen hem zegt: "Schrijf een bouwplan," krijg je waarschijnlijk rommel. Misschien begint hij met de tuin en eindigt hij met de fundering, of hij verzint dingen die niet in het originele plan staan.

De onderzoekers hebben daarom geen simpele vraag gesteld. Ze hebben een super-georganiseerde instructie (een 'prompt') bedacht. Ze hebben de AI niet één grote taak gegeven, maar het werk opgedeeld in kleine stukjes:

"Schrijf nu alleen het hoofdstuk over wie er mag deelnemen."
"Schrijf nu alleen het hoofdstuk over de hoofdmeting."
"Schrijf nu alleen het hoofdstuk over wat we doen als mensen stoppen met deelnemen."

Ze hebben de AI ook streng regels gegeven: "Gebruik alleen de feiten uit het originele document. Verzin niets. Als het er niet staat, zeg dan 'dit is niet gepland'."

🧪 De Proef: 9 Bouwplannen vs. 3 Slimme Robots

Om te testen of deze AI-tool werkelijk werkt, hebben ze het op 9 echte medische onderzoeken losgelaten. Ze lieten drie verschillende AI-modellen (de "robots") elk een plan schrijven voor dezelfde 9 onderzoeken. Dat leverde 27 verschillende plannen op.

Vervolgens kwamen er twee echte menselijke statistici (de "bouwmeesters") om deze plannen te controleren. Ze hadden een checklist van 46 punten. Ze gaven een score:

3 punten: Perfect. Precies zoals het moet.
2 punten: Goed, maar een klein foutje.
1 punt: Groot probleem, zou de wetenschap kunnen schaden.
0 punten: Niets gevonden of volledig verkeerd.

📊 Wat vonden ze? (De Resultaten)

De resultaten waren een mix van "Wauw!" en "Oeps".

1. De "Schrijver" is geweldig, de "Rekenaar" is nog niet klaar
De AI was fantastisch in het schrijven van de saaie, administratieve delen.

Vergelijking: Het was alsof de AI een perfecte secretaresse was. Ze kon de namen van de onderzoekers, de data van de start en de beschrijving van het medicijn perfect overnemen.
Score: Hier scoorden ze ongeveer 80-83% goed.

2. De "Rekenaar" maakt gevaarlijke fouten
Maar zodra het ging om het wiskundige deel (hoe we de resultaten precies berekenen), ging het mis.

Vergelijking: De AI probeerde soms een recept te maken voor een taart, maar verzon een ingrediënt dat niet bestaat, of gebruikte de verkeerde ovenstand. Het klinkt logisch, maar de taart lukt niet.
Score: Hier daalde de score naar 67-72%.

3. Alle robots waren even goed (of slecht)
Het maakte niet uit of ze GPT-5, Claude of Gemini gebruikten. Ze presteerden allemaal ongeveer even goed. De technologie is dus niet meer afhankelijk van één specifiek merk, maar is een algemeen probleem van de huidige AI.

⚠️ De Gevaarlijke "Hallucinaties"

Het gevaarlijkste deel is dat de AI soms dingen verzint die heel overtuigend klinken, maar fout zijn.

Voorbeeld: De AI schrijft: "We gaan een speciale test doen om te kijken of het medicijn werkt bij mensen met een lichte hoofdpijn."
De realiteit: In het originele plan stond dat helemaal niet. De AI heeft dit "verzonnen" omdat het klinkt als iets dat statistici doen. Als een mens dit niet goed leest, denken ze dat dit een officieel onderdeel van het onderzoek is. Dat kan leiden tot verkeerde conclusies over een medicijn.

💡 Conclusie: De AI is de "Schrijver", de Mens is de "Architect"

De onderzoekers concluderen het volgende:

AI is een krachtige hulpmiddel: Het kan het saaie, repetitieve werk van het schrijven van het plan voor 80% overnemen. Dit bespaart statistici enorm veel tijd.
Maar: Menselijke controle is verplicht. Je kunt de AI niet alleen laten werken. Het is alsof je een auto met een zelfrijdende functie koopt: je kunt je handen even van het stuur halen om even te drinken, maar je moet altijd klaar staan om in te grijpen als de auto een verkeerde afslag neemt.

De boodschap in één zin:
Deze AI-tools zijn uitstekende schrijvers die snel en netjes tekst kunnen produceren, maar ze zijn nog geen architecten die de complexe wiskundige structuur van een medisch onderzoek veilig kunnen ontwerpen. We moeten ze gebruiken om ons werk makkelijker te maken, maar nooit om ons verstand te vervangen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Statistische Analyseplannen (SAP's) zijn essentieel voor de transparantie en geloofwaardigheid van klinische trials. Ze vertalen de wetenschappelijke doelen van een protocol naar een vooraf gespecificeerde, reproduceerbare analysestrategie. Het opstellen van een SAP is echter een cognitief veeleisend en tijdrovend proces, waarbij strikte operationele tijdslijnen moeten worden gehaald voordat de data ontgrendeld worden.

Hoewel Large Language Models (LLM's) veelbelovend zijn gebleken bij het opstellen van protocollen, is hun vermogen om hoogwaardige, protocol-conforme SAP's te genereren nog niet formeel gevalideerd tegen bestaande methodologische richtlijnen. Er bestaat een risico op "AI-slop": slecht uitgevoerde studies die snel worden gegenereerd met AI-hulp, wat de integriteit van het medisch onderzoek kan ondermijnen. Er is een duidelijke behoefte aan een gevalideerd AI-gestuurde pipeline die SAP's kan opstellen zonder de wetenschappelijke nauwkeurigheid te compromitteren.

Methodologie

De auteurs hebben een gestructureerde, modulaire prompting-pipeline ontwikkeld en gevalideerd voor het genereren van SAP's uit klinische trial-protocollen.

Ontwikkeling van de Prompt-pipeline:
- Fase 1 (Vanilla prompting): Initieel werden protocollen zonder beperkingen ingediend. Dit resulteerde vaak in onvolledige outputs, slechte structuur en hallucinaties.
- Fase 2 (Gestructureerde sectie-voor-sectie prompting): Op basis van de richtlijnen van Gamble et al. (JAMA) werd een bibliotheek met prompts ontwikkeld. Elke sectie van de SAP (bijv. studieontwerp, steekproefgrootte, primaire analyse) kreeg een specifieke prompt.
- Sleutelcomponenten van de prompts:
  - Systeembericht: Definieerde de rol als "expert klinisch trial statisticus".
  - Scope-control: Specificeerde exact wat wel en niet in een sectie mocht.
  - Protocol-trouw: Instructies om alleen informatie te gebruiken die in het protocol staat om hallucinaties te voorkomen.
  - Behandeling van niet-toepasselijkheid: Instructies om expliciet "niet gepland" te melden in plaats van te extrapoleren.
  - Few-shot prompting: Voorbeelden werden gebruikt om de gewenste specificiteit en structuur te illustreren.
Validatie en Data:
- Dataset: 9 real-world klinische trial-protocollen (verschillende interventies, populaties en uitkomsten).
- Modellen: Drie toonaangevende LLM's werden getest: OpenAI GPT-5, Anthropic Claude Sonnet 4 en Google Gemini 2.5 Pro.
- Output: Totaal 27 SAP's gegenereerd (9 protocollen × 3 modellen).
- Scoring: De gegenereerde SAP's werden geëvalueerd tegen een 46-punten kwaliteitschecklist (afgeleid van Gamble-richtlijnen en het PreSPEC-framework).
- Beoordelingsschaal: 0 (niet behandeld) tot 3 (volledig accuraat en implementeerbaar).
- Onafhankelijkheid: Elke SAP werd dubbel beoordeeld door twee onafhankelijke trial-statistici (een met kennis van het protocol, een onafhankelijk).
Statistische Analyse:
- Een gemengd-effecten logistische regressie (mixed-effects logistic regression) werd gebruikt om de nauwkeurigheid te vergelijken tussen modellen en tussen itemtypes (beschrijvende items vs. statistische redeneer-items).
- Het primaire eindpunt was binair: een score van 3 werd als "correct" beschouwd.

Belangrijkste Resultaten

Algemene Nauwkeurigheid: De modellen produceerden SAP-drafts met een hoge algehele nauwkeurigheid (77%–78%). Er was geen significant verschil in prestatie tussen de drie onderzochte LLM's ( $p=0.79$ ).
Prestatieverschil per Itemtype: Er was een significant verschil in prestatie afhankelijk van het type inhoud ( $p < 0.001$ $p < 0.001$ ):
- Beschrijvende items (administratieve details, studieontwerp): Hoge nauwkeurigheid (81%–83%).
- Statistische items (modellering, sensitiviteitsanalyses): Lagere nauwkeurigheid (67%–72%).
Kwalitatieve Bevindingen:
- Modellen excelleren in het reproduceren van protocolinformatie en het structureren van administratieve secties.
- Modellen vertonen fouten bij complexe statistische redenering, zoals het weglaten van covariaten, het kiezen van inefficiënte modellen (bijv. lineaire regressie in plaats van mixed models voor herhaalde metingen), en het "hallucineren" van sensitiviteitsanalyses die niet in het protocol stonden.
- Fouten in statistische methoden zijn vaak subtiel en kunnen leiden tot minder precieze schattingen of verkeerde conclusies, ondanks dat de tekst professioneel oogt.

Belangrijkste Bijdragen

Eerste Formele Validatie: Dit is naar verluidt de eerste studie die een LLM-pipeline specifiek voor SAP-generatie valideert tegen gestandaardiseerde methodologische richtlijnen met onafhankelijke expert-beoordeling.
Gestructureerde Prompt-engineering: De studie demonstreert dat een modulaire, sectie-voor-sectie prompt-strategie (in plaats van één grote prompt) essentieel is voor het minimaliseren van hallucinaties en het maximaliseren van de protocol-trouw.
Prestatieprofiel: Het in kaart brengen van de specifieke sterktes (beschrijvend) en zwaktes (statistisch redeneren) van huidige state-of-the-art modellen in de context van klinische trials.
Open Source Tooling: De auteurs hebben de SAP-AI tool en de broncode openbaar gemaakt voor gebruik en verdere ontwikkeling.

Betekenis en Conclusie

De studie concludeert dat LLM's effectief kunnen worden ingezet als schrijfhulp (draughtsman) voor het opstellen van SAP's, wat aanzienlijke tijdwinst kan opleveren voor het genereren van beschrijvende en administratieve secties. Dit stelt statistici in staat om hun cognitieve inspanning te richten op de complexe methodologische uitdagingen.

Echter, de studie benadrukt dat menselijke supervisie ("human-in-the-loop") onmisbaar blijft. De huidige modellen zijn nog niet betrouwbaar genoeg om als autonome statistische architecten te fungeren, vooral niet bij het definiëren van inferentiële logica en estimanden. Het onafhankelijk toepassen van AI voor complexe statistische planning zonder expert-oversight vormt een risico voor de integriteit van het onderzoek.

Toekomstig werk moet zich richten op geavanceerde technieken zoals Retrieval-Augmented Generation (RAG) en agentic workflows (waarbij één AI-agent het plan schrijft en een andere controleert) om de redeneercapaciteiten te verbeteren. De bevindingen zijn ook relevant voor de bredere toepassing van AI in statistische analyse van observationele data, waar de uitdagingen waarschijnlijk nog groter zijn.

From Protocol to Analysis Plan: Development and Validation of a Large Language Model Pipeline for Statistical Analysis Plan Generation using Artificial Intelligence (SAPAI)

🧠 De Slimme Schrijver die nog niet de Meester is

🛠️ Hoe hebben ze het aangepakt? (De "Prompt")

🧪 De Proef: 9 Bouwplannen vs. 3 Slimme Robots

📊 Wat vonden ze? (De Resultaten)

⚠️ De Gevaarlijke "Hallucinaties"

💡 Conclusie: De AI is de "Schrijver", de Mens is de "Architect"

Probleemstelling

Methodologie

Belangrijkste Resultaten

Belangrijkste Bijdragen

Betekenis en Conclusie

Meer zoals dit

"Mapping Stakeholder Engagement in Endometriosis Care Innovation: Insights from the VendoR Project"

Challenges in the Computational Reproducibility of Linear Regression Analyses: An Empirical Study

An Empirical Assessment of Inferential Reproducibility of Linear Regression in Health and Biomedical Research Papers

Towards Integrated Digital Health Systems for Nutrition and Food Security in Uganda: A Cross-Sectional Survey

PRAM: Post-hoc Retrieval Augmentation for Parameter-Free Domain Adaptation of ICU Clinical Prediction Models