A statistical framework for evaluating the repeatability and reproducibility of large language models

⚕️

Dit is een AI-gegenereerde uitleg van een preprint die niet peer-reviewed is. Dit is geen medisch advies. Neem geen gezondheidsbeslissingen op basis van deze inhoud. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, digitale arts hebt die elke vraag over ziektes kan beantwoorden. Je vraagt hem: "Wat heeft deze patiënt?" en hij zegt: "Het is meningitis." Je bent blij, want het antwoord lijkt goed. Maar als je dezelfde vraag een uur later nog eens stelt, zegt hij misschien: "Het is waarschijnlijk een hersenabces," of "Het is een zware griep."

Zou je die arts nog vertrouwen? Waarschijnlijk niet. In de echte medische wereld is consistentie net zo belangrijk als kennis.

Dit wetenschappelijke artikel introduceert een nieuwe manier om te meten hoe betrouwbaar deze digitale artsen (die we Grote Taalmodellen of LLM's noemen, zoals ChatGPT) eigenlijk zijn. De auteurs hebben een "meetlat" ontwikkeld om te zien of deze AI's hun antwoorden herhalen of dat ze elke keer een ander verhaal bedenken.

Hier is hoe het werkt, uitgelegd met simpele metaforen:

1. Het Probleem: De "Gokker" in plaats van de "Expert"

Grote Taalmodellen werken niet zoals een mens die feiten uit zijn hoofd leert. Ze werken als een gokker die woorden kiest. Als je ze iets vraagt, kijken ze naar een reeks mogelijke volgende woorden en kiezen er één op basis van kansen. Soms kiezen ze het juiste woord, soms een ander dat ook logisch klinkt.

Het probleem is: als je dezelfde vraag twee keer stelt, kan de AI twee keer een ander woord kiezen, zelfs als het antwoord in de kern hetzelfde is. Of erger: ze kunnen twee keer een heel ander antwoord geven. Voor een arts is dit gevaarlijk. Je wilt een arts die elke dag hetzelfde, juiste advies geeft, niet een die soms geluk heeft.

2. De Oplossing: Twee Soorten "Meetlatten"

De auteurs hebben een systeem bedacht om dit gedrag te meten. Ze kijken naar twee dingen:

De Betekenis (Semantiek): Kijk naar het eindresultaat. Als de AI vandaag zegt "Het is meningitis" en morgen zegt "De patiënt heeft een hersenvliesontsteking", dan is de betekenis hetzelfde. Dat is goed. Maar als hij morgen "Het is een gebroken been" zegt, is de betekenis anders. Dat is slecht.
De Interne Zekerheid (Intern): Kijk naar wat er in de computer gebeurt terwijl hij denkt. Stel je voor dat de AI een dobbelsteen gooit om het volgende woord te kiezen.
- Hoge zekerheid: De AI gooit een dobbelsteen waarop alleen het woord "meningitis" staat. Hij is 100% zeker.
- Lage zekerheid: De AI gooit een dobbelsteen met "meningitis", "griep", "kanker" en "maagpijn" erop. Hij twijfelt.
  De nieuwe meetlat kijkt of de AI elke keer met dezelfde zekerheid (of twijfel) antwoorden genereert.

3. Twee Manieren om te Testen

De auteurs testen dit op twee manieren, net als in een wetenschappelijk lab:

Herhaalbaarheid (Repeatability): Je vraagt exact hetzelfde aan dezelfde AI, op hetzelfde moment, met dezelfde instellingen.
- Vergelijking: Alsof je dezelfde bakker twee keer dezelfde cake laat bakken. Zien ze er hetzelfde uit?
Reproduceerbaarheid (Reproducibility): Je vraagt iets anders, of gebruikt een andere AI, of een andere manier om de vraag te stellen.
- Vergelijking: Alsof je de bakker vraagt de cake te maken met een ander recept, of een andere bakker vraagt dezelfde taart te maken. Komen ze toch tot een vergelijkbaar resultaat?

4. Wat Vonden Ze? (De Uitslag)

De auteurs hebben dit getest met medische examenvragen en echte, moeilijke patiëntcases van zeldzame ziektes. Hier zijn de belangrijkste ontdekkingen:

De manier van vragen telt: Als je de AI vraagt om te denken als een "statistiek-expert" (Bayesiaanse redenering), gaf hij veel consistenter antwoorden dan als je hem vroeg om gewoon "intuïtief" te denken. De AI is dus niet alleen maar een "zwakke" machine; hij wordt beter als je hem de juiste instructies geeft.
Kloppen betekent niet dat het betrouwbaar is: Dit is het belangrijkste punt. Een AI kon in één keer het juiste antwoord geven (hij had "geluk" of was slim), maar als je het 100 keer vroeg, gaf hij 99 keer een ander, fout antwoord.
- Metafoor: Stel je een horloge voor dat elke dag precies 12:00 aangeeft, maar dat elke dag een uur te laat is. Het klopt niet, maar het is wel consistent. Of een horloge dat soms 12:00 aangeeft en soms 13:00, maar toevallig vandaag precies goed is. Je wilt een horloge dat altijd goed is, niet één dat soms toevallig goed is.
Echte patiënten vs. Examens: Op echte, complexe patiëntcases (met veel onduidelijke symptomen) was de AI vaak consistenter dan op standaard examenvragen. Dit komt misschien omdat de echte verhalen zo complex en specifiek zijn dat er minder ruimte is voor "gokken".

5. Waarom is dit belangrijk voor jou?

Vroeger keken we alleen naar: "Heeft de AI het goed?" (Is het antwoord waar?). Nu moeten we ook kijken naar: "Is de AI betrouwbaar?" (Kan ik er elke dag op vertrouwen?).

Als een AI in een ziekenhuis wordt gebruikt om artsen te helpen, mag hij niet elke dag een ander advies geven. Deze nieuwe "meetlat" helpt ontwikkelaars en artsen om te zien welke AI's echt stabiel zijn en welke alleen maar toevallig goed zijn.

Kort samengevat:
Deze paper zegt: "Stop met alleen kijken of de AI het antwoord weet. Kijk ook of hij het antwoord elke keer opnieuw kan vinden zonder te twijfelen of te gokken. Een goede digitale arts moet niet alleen slim zijn, maar ook betrouwbaar."

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Grote Taalmodellen (LLM's) worden steeds vaker ingezet in de biomedische sector voor taken zoals het genereren van klinische documentatie en het ondersteunen van diagnostische besluitvorming. Echter, de huidige evaluatiemethoden focussen voornamelijk op nauwkeurigheid (accuracy). Dit is ontoereikend omdat LLM's probabilistisch werken: ze genereren tekst door tokens te bemonsteren uit kansverdelingen. Hierdoor kan een identieke prompt in verschillende runs tot verschillende outputs leiden, zelfs als de output in één run correct is.

Deze variabiliteit (inconsistentie) vormt een risico voor de betrouwbaarheid in klinische settings, waar voorspelbaarheid cruciaal is. Bestaande metrics zoals BLEU, ROUGE of BERTScore meten de overeenkomst met een referentietekst, maar zijn niet ontworpen om de variabiliteit tussen herhaalde runs van hetzelfde model te kwantificeren. Er ontbreekt dus een gestructureerd, door regelgeving geïnspireerd raamwerk om zowel de herhaalbaarheid (repeatability) als de reproduceerbaarheid (reproducibility) van LLM-outputs systematisch te meten.

Methodologie

De auteurs hebben een statistisch raamwerk ontwikkeld dat is gebaseerd op de concepten van de Amerikaanse FDA (Food and Drug Administration) voor AI-gestuurde medische software. Het raamwerk onderscheidt twee dimensies van variabiliteit: semantisch (betekenis) en intern (token-niveau waarschijnlijkheidsverdelingen).

Deze dimensies worden gecombineerd met de definities van herhaalbaarheid en reproduceerbaarheid, wat leidt tot vier specifieke metrics:

Semantische Herhaalbaarheid (Semantic Repeatability):
- Definitie: De consistentie van de betekenis van outputs over herhaalde runs onder identieke condities (zelfde prompt, model, parameters).
- Berekening: Het gemiddelde van de paarsgewijze cosijn-sequentie tussen vector-embeddings van de gegenereerde teksten. Een hogere score (0-1) duidt op meer consistente betekenis.
Interne Herhaalbaarheid (Internal Repeatability):
- Definitie: De zekerheid (certainty) van de token-niveau waarschijnlijkheidsverdelingen tijdens het generatieproces onder identieke condities.
- Berekening: Gebaseerd op de Shannon-entropie van de gesneden (top-k) waarschijnlijkheidsverdelingen op elk token-positie. Lage entropie betekent een scherpe verdeling (hoge zekerheid). De score wordt genormaliseerd zodat een hogere score meer zekerheid/consistentie in het interne proces aangeeft.
Semantische Reproduceerbaarheid (Semantic Reproducibility):
- Definitie: De consistentie van de betekenis van outputs over runs onder verschillende, vooraf bepaalde condities (bijv. verschillende prompts).
- Berekening: Gemiddelde paarsgewijze cosijn-sequentie tussen de gemiddelde embeddings van outputs gegenereerd onder verschillende condities.
Interne Reproduceerbaarheid (Internal Reproducibility):
- Definitie: De consistentie van de zekerheid van de token-verdelingen onder verschillende condities.
- Berekening: Gebaseerd op het gemiddelde verschil in entropie tussen de verschillende condities.

Empirische Evaluatie:
Om het raamwerk te testen, hebben de auteurs een experiment uitgevoerd met:

Datasets: 518 vragen uit de USMLE (MedQA, gestandaardiseerd) en 90 real-world zeldzame ziektegevallen van het Undiagnosed Diseases Network (UDN, complex en onvolledig).
Modellen: ChatGPT-4, ChatGPT-4o-mini en LLaMA 3.2-1B.
Prompting-strategieën: Vijf Chain-of-Thought (CoT) prompts, waaronder Traditioneel, Differentieel, Intuïtief, Analytisch en Bayesiaans redeneren.
Opzet: Elke combinatie van prompt, geval en model werd 100 keer uitgevoerd ( $R=100$ ) om de metrics te berekenen.

Belangrijkste Bijdragen

Regelgevingsgericht Raamwerk: Het is het eerste raamwerk dat de FDA-definities van herhaalbaarheid en reproduceerbaarheid operationeel maakt voor LLM's, met een onderscheid tussen semantische en interne (probabilistische) variabiliteit.
Nieuwe Metrics: De introductie van vier specifieke scores die variabiliteit kwantificeren zonder afhankelijk te zijn van een specifieke "ground truth" of referentietekst, maar wel de stabiliteit van het model meten.
Onafhankelijkheid van Accuracy: Het raamwerk benadrukt dat nauwkeurigheid en consistentie losse eigenschappen zijn; een model kan correct zijn maar inconsistent, of consistent maar fout.

Resultaten

De empirische analyse leverde de volgende inzichten op:

Variatie per Dataset: Herhaalbaarheid en reproduceerbaarheid waren lager (meer variatie) voor de gestandaardiseerde USMLE-vragen dan voor de real-world UDN-gevallen. Dit suggereert dat de complexe, gedetailleerde structuur van echte patiëntcases de range van plausible antwoorden beperkt, wat leidt tot minder variabiliteit.
Invloed van Prompting: De prompting-strategie had een significant effect. Bayesiaans redeneren resulteerde in aanzienlijk hogere scores voor semantische herhaalbaarheid (p < 0.001) vergeleken met andere strategieën, vooral bij ChatGPT-4. Dit toont aan dat herhaalbaarheid niet alleen van het model afhangt, maar ook van hoe het model wordt "aangesproken".
Geen Correlatie met Nauwkeurigheid: Er was over het algemeen geen statistisch significant verband tussen de herhaalbaarheid/reproduceerbaarheid en de diagnostische nauwkeurigheid.
- Correcte diagnoses waren niet per se consistenter dan incorrecte diagnoses.
- Een model kan in één run het juiste antwoord geven, maar dit antwoord niet consequent reproduceren in volgende runs.
Interne vs. Semantische: Interne metrics (entropie) varieerden minder tussen prompts dan semantische metrics, hoewel er uitzonderingen waren (bijv. bij ChatGPT-4o-mini hadden sommige prompts lagere interne herhaalbaarheid).

Betekenis en Conclusie

Dit onderzoek biedt een cruciale stap in de evaluatie van LLM's voor biomedische toepassingen.

Klinische Betrouwbaarheid: Het benadrukt dat voor klinische besluitvorming niet alleen de juistheid van een enkel antwoord telt, maar ook de consistentie ervan. Een model dat willekeurig verschillende diagnoses geeft voor dezelfde patiënt, is onbetrouwbaar, zelfs als het soms gelijk heeft.
Regelgeving en Validatie: Het raamwerk biedt een methodologie die aansluit bij FDA-richtlijnen voor AI-software, wat essentieel is voor de validatie en certificering van medische AI-systemen.
Toekomstige Richting: De auteurs concluderen dat evaluaties van LLM's altijd zowel nauwkeurigheid als variabiliteit moeten omvatten. Het raamwerk is generiek toepasbaar op verschillende modellen, prompts en taken, en kan helpen bij het selecteren van de meest robuuste configuraties voor specifieke klinische workflows.

Kortom, de paper stelt dat consistentie een fundamentele eigenschap is van betrouwbare AI in de zorg, en biedt de wiskundige tools om deze te meten en te optimaliseren.

A statistical framework for evaluating the repeatability and reproducibility of large language models

1. Het Probleem: De "Gokker" in plaats van de "Expert"

2. De Oplossing: Twee Soorten "Meetlatten"

3. Twee Manieren om te Testen

4. Wat Vonden Ze? (De Uitslag)

5. Waarom is dit belangrijk voor jou?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

A case report on gendered biases in a Finnish healthcare AI assistant

An End-to-End Synthetic Oncology Clinical Trial Framework Integrating Radiographic Response, Circulating Tumor DNA, Safety, and Survival for Decision-Oriented Clinical Data Science

Who is leading medical AI? A systematic review and scientometric analysis of chest x-ray research

High-Throughput Observational Evidence Generation Using Linked Electronic Health Record and Claims Data

Perception of Safety in Behavioral Health Crisis Units among Patients and Care Partners versus Artificial Intelligence (AI): A Multimethod Study