From Protocol to Analysis Plan: Development and Validation of a Large Language Model Pipeline for Statistical Analysis Plan Generation using Artificial Intelligence (SAPAI)

Deze studie toont aan dat een op grote taalmodellen gebaseerde pijplijn SAP's voor klinische trials effectief kan opstellen met hoge nauwkeurigheid voor beschrijvende inhoud, maar dat menselijke supervisie essentieel blijft voor complexe statistische redeneringen.

Jafari, H., Chu, P., Lange, M., Maher, F., Glen, C., Pearson, O. J., Burges, C., Martyn, M., Cross, S., Carter, B., Emsley, R., Forbes, G.

Gepubliceerd 2026-03-19
📖 5 min leestijd🧠 Diepgaand
⚕️

Dit is een AI-gegenereerde uitleg van een preprint die niet peer-reviewed is. Dit is geen medisch advies. Neem geen gezondheidsbeslissingen op basis van deze inhoud. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

🧠 De Slimme Schrijver die nog niet de Meester is

Over het bouwen van een AI-tool voor medische onderzoeksplannen

Stel je voor dat je een heel groot, complex bouwproject gaat starten: een klinische proef om een nieuw medicijn of een nieuwe therapie te testen. Voordat je ook maar één steen legt of één patiënt behandelt, moet je een bouwplan hebben. In de medische wereld heet dit een Statistisch Analyse Plan (SAP).

Dit plan is de "heilige graal" van het onderzoek. Het zegt precies:

  • Hoe we de gegevens gaan verzamelen.
  • Welke vragen we gaan stellen.
  • Hoe we de antwoorden gaan berekenen.
  • Wat we doen als er iets misgaat.

Zonder dit plan is het onderzoek niet geloofwaardig. Het is als een recept voor een taart: als je niet precies opschrijft hoeveel suiker erin moet, weet niemand of de taart lukt of dat je er later op kunt liegen ("Oh, ik dacht dat er meer suiker in zat!").

Het probleem: Het schrijven van zo'n plan is extreem saai, tijdrovend en moeilijk. Het is als het schrijven van een juridisch contract terwijl je ook nog wiskundige formules moet bedenken.

De oplossing? De onderzoekers van dit artikel hebben geprobeerd om Kunstmatige Intelligentie (AI) – specifiek de slimste chatbots van vandaag (zoals GPT-5, Claude en Gemini) – in te huren om dit plan voor hen te schrijven. Ze noemen hun tool SAPAI.


🛠️ Hoe hebben ze het aangepakt? (De "Prompt")

Stel je voor dat je een zeer getalenteerde, maar soms wat dromerige stagiair hebt. Als je tegen hem zegt: "Schrijf een bouwplan," krijg je waarschijnlijk rommel. Misschien begint hij met de tuin en eindigt hij met de fundering, of hij verzint dingen die niet in het originele plan staan.

De onderzoekers hebben daarom geen simpele vraag gesteld. Ze hebben een super-georganiseerde instructie (een 'prompt') bedacht. Ze hebben de AI niet één grote taak gegeven, maar het werk opgedeeld in kleine stukjes:

  1. "Schrijf nu alleen het hoofdstuk over wie er mag deelnemen."
  2. "Schrijf nu alleen het hoofdstuk over de hoofdmeting."
  3. "Schrijf nu alleen het hoofdstuk over wat we doen als mensen stoppen met deelnemen."

Ze hebben de AI ook streng regels gegeven: "Gebruik alleen de feiten uit het originele document. Verzin niets. Als het er niet staat, zeg dan 'dit is niet gepland'."


🧪 De Proef: 9 Bouwplannen vs. 3 Slimme Robots

Om te testen of deze AI-tool werkelijk werkt, hebben ze het op 9 echte medische onderzoeken losgelaten. Ze lieten drie verschillende AI-modellen (de "robots") elk een plan schrijven voor dezelfde 9 onderzoeken. Dat leverde 27 verschillende plannen op.

Vervolgens kwamen er twee echte menselijke statistici (de "bouwmeesters") om deze plannen te controleren. Ze hadden een checklist van 46 punten. Ze gaven een score:

  • 3 punten: Perfect. Precies zoals het moet.
  • 2 punten: Goed, maar een klein foutje.
  • 1 punt: Groot probleem, zou de wetenschap kunnen schaden.
  • 0 punten: Niets gevonden of volledig verkeerd.

📊 Wat vonden ze? (De Resultaten)

De resultaten waren een mix van "Wauw!" en "Oeps".

1. De "Schrijver" is geweldig, de "Rekenaar" is nog niet klaar
De AI was fantastisch in het schrijven van de saaie, administratieve delen.

  • Vergelijking: Het was alsof de AI een perfecte secretaresse was. Ze kon de namen van de onderzoekers, de data van de start en de beschrijving van het medicijn perfect overnemen.
  • Score: Hier scoorden ze ongeveer 80-83% goed.

2. De "Rekenaar" maakt gevaarlijke fouten
Maar zodra het ging om het wiskundige deel (hoe we de resultaten precies berekenen), ging het mis.

  • Vergelijking: De AI probeerde soms een recept te maken voor een taart, maar verzon een ingrediënt dat niet bestaat, of gebruikte de verkeerde ovenstand. Het klinkt logisch, maar de taart lukt niet.
  • Score: Hier daalde de score naar 67-72%.

3. Alle robots waren even goed (of slecht)
Het maakte niet uit of ze GPT-5, Claude of Gemini gebruikten. Ze presteerden allemaal ongeveer even goed. De technologie is dus niet meer afhankelijk van één specifiek merk, maar is een algemeen probleem van de huidige AI.


⚠️ De Gevaarlijke "Hallucinaties"

Het gevaarlijkste deel is dat de AI soms dingen verzint die heel overtuigend klinken, maar fout zijn.

  • Voorbeeld: De AI schrijft: "We gaan een speciale test doen om te kijken of het medicijn werkt bij mensen met een lichte hoofdpijn."
  • De realiteit: In het originele plan stond dat helemaal niet. De AI heeft dit "verzonnen" omdat het klinkt als iets dat statistici doen. Als een mens dit niet goed leest, denken ze dat dit een officieel onderdeel van het onderzoek is. Dat kan leiden tot verkeerde conclusies over een medicijn.

💡 Conclusie: De AI is de "Schrijver", de Mens is de "Architect"

De onderzoekers concluderen het volgende:

  • AI is een krachtige hulpmiddel: Het kan het saaie, repetitieve werk van het schrijven van het plan voor 80% overnemen. Dit bespaart statistici enorm veel tijd.
  • Maar: Menselijke controle is verplicht. Je kunt de AI niet alleen laten werken. Het is alsof je een auto met een zelfrijdende functie koopt: je kunt je handen even van het stuur halen om even te drinken, maar je moet altijd klaar staan om in te grijpen als de auto een verkeerde afslag neemt.

De boodschap in één zin:
Deze AI-tools zijn uitstekende schrijvers die snel en netjes tekst kunnen produceren, maar ze zijn nog geen architecten die de complexe wiskundige structuur van een medisch onderzoek veilig kunnen ontwerpen. We moeten ze gebruiken om ons werk makkelijker te maken, maar nooit om ons verstand te vervangen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →