Measuring the Unmeasurable: A Diagnostic Sensor for AI Reasoning Pathology in Sequential Clinical Decision-Making

⚕️

Dit is een AI-gegenereerde uitleg van een preprint die niet peer-reviewed is. Dit is geen medisch advies. Neem geen gezondheidsbeslissingen op basis van deze inhoud. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een kunstmatige intelligentie (AI) een arts is die een patiënt moet diagnosticeren. Tot nu toe hebben we deze AI's getest met een simpele methode: we gaven ze alle informatie over de patiënt in één keer, alsof we een compleet dossier op hun bureau legden. Ze deden het er geweldig op, met hoge cijfers.

Maar in het echte leven werkt een dokter niet zo. Een patiënt komt binnen, dan komt er een bloedtest, dan een röntgenfoto, en pas daarna een specialist. De informatie arriveert stap voor stap.

Dit onderzoek van Stella Wang (2026) kijkt wat er gebeurt als we die AI's die "stap-voor-stap" methode laten gebruiken. En het antwoord is verrassend: ze doen het er slechter op, maar niet op de manier die je denkt.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen.

1. Het mysterie: De "Vergeten Raket" (Convergence Regression)

Stel je voor dat de AI een detective is die een moord oplost.

Stap 1: De detective vindt een clue en zegt: "Ik denk dat de tuinman het gedaan heeft!" (Goed, hij heeft het juiste idee).
Stap 2: Er komt een nieuwe getuige. De detective denkt: "Oh, de tuinman lijkt me toch niet, de tuinman heeft een alibi. Ik denk dat de kok het gedaan heeft."
Stap 3: Er komt nog een clue. De detective zegt: "Nee, de kok ook niet. Het moet de buurman zijn."
Het einde: De detective geeft de politie een verslag en zegt: "De buurman is de dader."

Het probleem? De detective had toch de tuinman (de juiste dader) al gevonden in stap 1! Maar door de nieuwe informatie is hij er tussenuit gesprongen en heeft hij het juiste antwoord "vergeten" of verlaten.

In de studie noemen ze dit Convergence Regression. De AI vindt het juiste antwoord vaak halverwege (90% van de tijd), maar verliest het weer voordat ze klaar zijn (alleen 60% van de tijd houdt ze het vast). Ze "verrassen" zichzelf met nieuwe informatie en vergeten wat ze eerder al goed hadden.

2. De oplossing: De "Gordijn-Check" (SIPS)

De onderzoekers bedachten een trucje om dit te voorkomen. Ze noemen het SIPS (een soort strakke structuur voor de AI).

Stel je voor dat de detective nu niet alleen maar moet zeggen wie de dader is, maar elke stap moet invullen in een streng formulier:

Wie denk je dat het is?
Waarom denk je dat?
Heb je iemand uit je lijst gehaald? (En waarom?)
Heb je iemand toegevoegd? (En waarom?)

Dit is de SIPS-methode. Het dwingt de AI om haar gedachten hardop te zeggen en elke verandering te verantwoorden. Ze kan niet zomaar het juiste antwoord "stilzwijgend" laten vallen.

Het resultaat:

De AI vergeet het juiste antwoord bijna nooit meer. Ze houdt het vast, zelfs als ze twijfelt.
Maar er is een prijs: Omdat ze zo voorzichtig is en elke optie blijft overwegen, durft ze niet meer snel te kiezen voor één definitief antwoord. Ze blijft twijfelen. Ze is een betere "bewaarder" van ideeën, maar een slechtere "beslisser".

3. De grote les: "Bewaren" en "Kiezen" zijn twee verschillende vaardigheden

De studie laat zien dat er een fundamenteel verschil is tussen:

Het vinden en vasthouden van een goed idee (Bewaren).
Het durven kiezen voor het allerbeste idee (Kiezen).

De AI's zijn goed in vinden, maar slecht in vasthouden als er nieuwe informatie komt. De "Gordijn-Check" (SIPS) helpt ze om te bewaren, maar maakt ze een beetje onzeker in het kiezen.

4. Waarom is dit belangrijk voor de echte wereld?

Stel je voor dat een AI een arts helpt bij het stellen van een diagnose.

Als de AI het juiste antwoord halverwege vindt, maar dan "vergeet" en een fout antwoord geeft, is dat gevaarlijk. De arts ziet alleen het eindresultaat en denkt: "Oh, de AI zegt dat het dit is, dus ik ga hierop vertrouwen."
Met de nieuwe methode (SIPS) ziet de arts echter de hele reis: "De AI dacht eerst aan ziekte A, maar toen dacht ze aan ziekte B, en nu twijfelt ze tussen A en B."

Dit maakt de AI doorzichtig. We kunnen zien waar ze twijfelt en waar ze misschien een fout maakt. Het is alsof we een camera in het hoofd van de AI hebben geplaatst.

Samenvatting in één zin

Deze studie laat zien dat AI's in de medische wereld vaak het juiste antwoord vinden, maar het weer verliezen als er nieuwe informatie komt; door ze te dwingen om hun gedachten stap voor stap op te schrijven, houden ze het juiste antwoord vast, maar worden ze een beetje onzeker in hun definitieve keuze.

De kernboodschap: We moeten AI's niet alleen testen op of ze het juiste antwoord hebben, maar ook op hoe ze nadenken als de situatie verandert. En soms is het beter om een AI te hebben die twijfelt en alles uitlegt, dan een AI die snel een fout antwoord geeft.

Each language version is independently generated for its own context, not a direct translation.

1. Probleemstelling

Grote Taalmodellen (LLM's) tonen indrukwekkende prestaties op medische benchmarks (zoals USMLE en MedQA), maar deze evaluaties presenteren klinische informatie als volledige, statische vignettes. In de echte klinische praktijk arriveert diagnostische informatie echter sequentieel (bijv. eerst presentatie, dan lichamelijk onderzoek, dan labresultaten, dan beeldvorming).

Het paper identificeert een fundamentele kloof:

Statische evaluatie: Meet alleen of het model het juiste antwoord geeft op basis van alle gegevens tegelijk.
Sequentiële realiteit: Vereist dat het model hypotheses update, verfijnt of verwerpt naarmate nieuwe data binnenkomt.

De kernvraag is: wat gebeurt er met het redeneervermogen van een LLM wanneer informatie stap-voor-stap wordt geleverd, en kunnen we de onderliggende fouten meten en mitigeren?

2. Methodologie

De auteur voert een drie-conditie ablatiestudie uit met $N=50$ klinische gevallen afkomstig van The New England Journal of Medicine (NEJM). Alle experimenten worden uitgevoerd met het model claude-sonnet-4-20250514 onder deterministische instellingen (temperatuur 0).

De drie condities isoleren twee variabelen: leveringsmodus (single-shot vs. sequentieel) en structurele steun (geen vs. SIPS).

C1 (Single-Shot Baseline): Het volledige klinische verhaal wordt in één prompt gegeven. Het model geeft één diagnose.
C2 (Sequentieel, zonder steun): Dezelfde informatie wordt verdeeld over vier sequentiële stappen. Het model moet zijn differentiaalverwijzing updaten zonder structurele verplichtingen.
C3 (Sequentieel, met SIPS): Dezelfde vier stappen, maar met de Sequential Information Prioritization Scaffold (SIPS). Dit is een gestructureerd prompt-framework dat dwingt tot:
1. Geduwde differentiaalranking (top 3-5).
2. Expliciete documentatie van hypothesewisselingen (wat is toegevoegd/verwijderd/verplaatst en waarom).
3. Tracking van convergentiestatus.

Meetinstrumenten:

5+2 Score Rubric: Een meetlat voor zeven dimensies van redeneerkwaliteit (beyond binary accuracy), waaronder Diagnostic Accuracy, Reasoning Depth, Calibration, Hypothesis Tracking, Step Adherence, Early Convergence en Anchoring Resistance.
6-Code Foutentaxonomie: Een classificatiesysteem voor fouten:
- KV: Knowledge Void (kennis ontbreekt).
- RF: Ranking Failure (goed antwoord, maar slecht gerangschikt).
- SD: Signal Dilution (signaal gemist).
- PC: Premature Closure (te vroeg vastzitten aan een fout).
- LM: Logical Misinterpretation (juiste data, fout conclusie).
- CR: Convergence Regression (het juiste antwoord wordt gevonden en daarna weer verloren).

3. Belangrijkste Bijdragen en Ontdekkingen

A. De "Access-Stability Dissociation" (Toegang-Stabiliteit Dissociatie)

In de ongestructureerde sequentiële conditie (C2) bereikte het model het juiste diagnose in 90% van de gevallen op een of ander tijdstip tijdens het redeneerproces (Access Rate). Echter, in slechts 60% van de gevallen bleef dit antwoord in de uiteindelijke output staan (Final Accuracy).

Dit creëert een 30% stabiliteitskloof die onzichtbaar is bij traditionele single-shot evaluaties.
Het model vindt het juiste antwoord, maar verliest het vervolgens.

B. Convergence Regression (CR)

De auteur introduceert een nieuw type redeneerfout: Convergence Regression. Dit is een systematische fout waarbij het model een correcte diagnose op een tussenstap identificeert, maar deze vervolgens verlaat wanneer nieuwe informatie (vaak "textbook-achtige" patronen) het model naar een alternatief diagnose duwt.

Dit is geen gebrek aan kennis, maar een gebrek aan sequentiële stabiliteit.
Het is een vorm van recency bias op diagnostisch niveau.

C. Het SIPS Retention Effect

De gestructureerde scaffold (C3) elimineert de stabiliteitskloof volledig:

Access Rate: Daalt licht naar 80% (de structuur beperkt iets de exploratiebreedte).
Final Accuracy: Blijft op 80%.
Stabiliteitskloof: 0%.
Mechanisme: SIPS dwingt het model om elke wijziging in de differentiaal expliciet te rechtvaardigen. Dit creëert drie "barrières" (Zichtbaarheid, Rechtvaardiging, Convergentie-tracking) die het stilzwijgend verlaten van een correcte diagnose onmogelijk maken.

D. Het "Convergence Hesitancy Paradox"

Hoewel SIPS de stabiliteit verbetert, daalt de Top-1 nauwkeurigheid van 60% (in C1 en C2) naar 40% in C3.

Het model wordt een betere "tracker" (houdt meer opties open en documenteert ze), maar een slechtere "beslissingsmaker" (zweeft tussen opties in plaats van agressief te convergeren naar één antwoord).
Dit bewijst dat retentie (vasthouden aan opties) en convergentie (kiezen voor één optie) architectonisch verschillende taken zijn die aparte mechanismen vereisen.

E. Token Efficiëntie en Test-Time Compute

C2 (Unstructured): Verbruikt 3,1x meer tokens dan C1 zonder verbetering in nauwkeurigheid ("unstructured overthinking").
C3 (Structured): Verbruikt slechts 1,28x meer tokens dan C2, maar levert een 20% stijging in nauwkeurigheid op.
Conclusie: De opbrengst van extra rekenkracht hangt niet af van de hoeveelheid tokens, maar van de structuur waarin ze worden gebruikt. Gestructureerde deliberatie is effectiever dan ongestructureerd denken.

4. Resultaten en Analyse

Kwaliteitsdimensies: Alle vijf kern-dimensies van de 5+2 rubric verbeteren monotoon van C1 naar C3, met de grootste winst in Hypothesis Tracking.
Foutenverdeling: In de diepteanalyse (10 gevallen) waren de enige actieve fouten Knowledge Void (kennisgebrek) en Convergence Regression. SIPS elimineerde CR volledig, maar kon KV niet oplossen (wat kennisverrijking vereist).
Governance: De 5+2 rubric en de 6-code taxonomie operationaliseren abstracte WHO/FDA principes (transparantie, accountability, veiligheid) naar kwantificeerbare scores. Ze fungeren als een "diagnostische sensor" voor redeneerpathologie.

5. Betekenis en Implicaties

Dit paper biedt een paradigmaverschuiving in de evaluatie van medische AI:

Van Accuracy naar Pathologie: In plaats van alleen te kijken naar het eindantwoord, moeten we kijken naar het proces van redeneren. De "Access-Stability Dissociation" is een kritieke veiligheidsrisico die alleen zichtbaar is bij sequentiële evaluatie.
Scaffolding als Audit-tool: Gestructureerde prompts (zoals SIPS) zijn niet primair bedoeld om de nauwkeurigheid te verhogen, maar om redeneerfouten zichtbaar, classificeerbaar en auditabel te maken. Dit is essentieel voor klinische veiligheid en regulering.
Architecturale Interventies: Verschillende fouten vereisen verschillende oplossingen. Convergence Regression vereist structurele accountability (SIPS), terwijl Knowledge Voids kennisverrijking vereisen.
Toekomstperspectief: De auteur stelt voor dat "retentie" en "convergentie" gescheiden mechanismen zijn. Een volgende stap (Phase 2) zou een "Clinical Decision Matrix" (CDM) kunnen zijn om de convergentieproblematiek op te lossen zonder de stabiliteit te verliezen.

Conclusie:
Het paper demonstreert dat LLM's onder sequentiële druk systematisch correcte diagnoses verliezen (Convergence Regression), een fout die onzichtbaar blijft bij standaard benchmarks. Gestructureerde scaffolding (SIPS) fungeert als een diagnostische sensor die deze pathologie blootlegt en stabiliseert, ten koste van een tijdelijke daling in top-1 beslissingskracht. Dit biedt een meetbaar raamwerk voor de veilige en verantwoorde implementatie van AI in complexe, dynamische klinische workflows.