Evaluation format, not model capability, drives triage failure in the assessment of consumer health AI

Each language version is independently generated for its own context, not a direct translation.

Titel: Waarom de "examen-vraag" de AI onterecht een onvoldoende gaf

Stel je voor dat je een zeer slimme, goed opgeleide arts hebt die al miljoenen medische boeken heeft gelezen. Je vraagt hem: "Mijn buik doet pijn en ik voel me misselijk, wat moet ik doen?" De arts denkt na, stelt misschien een paar vragen en zegt: "Ga snel naar de spoedeisende hulp, dit klinkt gevaarlijk."

Nu stel je diezelfde arts een examen. Je zegt: "Ik geef je een beschrijving van een patiënt. Maar je mag niet vragen stellen, je mag niet denken aan wat je eerder hebt geleerd, en je moet je antwoord beperken tot één van deze vier letters: A, B, C of D. Als je 'A' kiest, betekent dat 'direct naar het ziekenhuis'."

De arts, die gewend is om te praten en te overleggen, raakt in de war. Hij ziet de vraag als een raadsel in plaats van een echte patiënt. Hij kiest per ongeluk 'B' (wacht even), terwijl hij in zijn eigen woorden eigenlijk 'A' wilde zeggen.

Dat is precies wat dit nieuwe onderzoek laat zien.

De Verkeerde Spiegel

Een ander onderzoek (van Ramaswamy et al.) had geconcludeerd dat AI-chatbots voor gezondheid 51% van de noodgevallen niet herkennen. Ze zeiden: "AI is te gevaarlijk, mensen sterven omdat de robot niet doorheeft dat ze hulp nodig hebben."

De auteurs van dit nieuwe paper zeggen echter: "Wacht even, jullie hebben de spiegel verkeerd vastgehouden."

Ze hebben gekeken naar hoe het test werd gedaan, niet alleen naar wat de AI deed. En ze ontdekten dat de testmethode zelf de fout veroorzaakte.

De Drie "Valstrikken" in de Test

De originele test gebruikte drie trucjes die de AI dwongen om zich dom te gedragen:

De "Blinddoek" (Geen voorkennis): De instructie was: "Gebruik alleen de informatie in deze tekst." Dit is alsof je een arts vraagt om een diagnose te stellen zonder zijn medische kennis te gebruiken. AI is juist slim omdat hij al die kennis heeft! Door dit af te sluiten, werd de AI letterlijk "verdomd".
De "Stomme Vraag" (Geen vragen stellen): In het echte leven vraagt een arts: "Hoe lang duurt de pijn al?" of "Heb je koorts?" De test verbood dit. De AI mocht niet interageren.
De "Meerkeuzevraag" (De grootste boosdoener): De AI moest kiezen uit A, B, C of D. Dit is als een schrijver die een prachtig verhaal wil vertellen, maar wordt gedwongen om alleen maar ja of nee te zeggen.

Het Experiment: AI in het "Echte Leven"

De onderzoekers (David, Farah en Enrico) namen vijf van de slimste AI-modellen ter wereld en gaven ze twee soorten tests:

Test 1 (De Examen-Situatie): Net als in het originele onderzoek. Strikte regels, meerkeuze, geen vragen stellen.
Test 2 (De Echte Situatie): De AI kreeg een berichtje zoals een echte patiënt het zou sturen: "Hoi, ik ben benauwd en mijn borst doet pijn, help?" Geen regels, geen meerkeuze, gewoon vrij kunnen praten.

Het Resultaat?
In de "examen-situatie" faalde de AI vaak. Maar in de "echte situatie" ging het plotseling veel beter!

Bij diabetes (een levensgevaarlijke situatie) gaf de AI in de echte situatie 100% het juiste advies.
Bij astma (een ander noodgeval) steeg het succes van 48% naar 80%.

De "Meerkeuze-metode" is de Schuldige

Het meest opvallende ontdekten ze bij de "meerkeuze" test.
Drie van de AI-modellen gaven in hun eigen woorden het perfecte advies: "Ga direct naar het ziekenhuis!"
Maar omdat ze gedwongen werden om een letter te kiezen (A, B, C of D), en de letter voor "ziekenhuis" niet precies paste bij hun complexe antwoord, werden ze foutief als "onvoldoende" beoordeeld.

Het was alsof je een student een examen geeft waarbij hij het juiste antwoord moet uitleggen, maar als hij dat in een vakje moet invullen, krijgt hij een onvoldoende omdat het vakje te klein is.

De Grootste Les

De conclusie is niet dat AI perfect is. De conclusie is dat de manier waarop we AI testen, de resultaten vervalst.

Als je een auto wilt testen op veiligheid, doe je dat niet door hem tegen een muur te laten rijden terwijl je de remmen hebt losgekoppeld en de banden leeg hebt gelaten. Dat is wat de eerste test deed.

Dit onderzoek zegt: "Stop met het testen van gezondheids-AI met examenvragen. Test ze met echte mensen, in echte gesprekken."

Als we dit doen, zien we dat de AI veel beter is dan de alarmistische berichten suggereren. De "gevaar" zit niet in de AI zelf, maar in de verkeerde manier waarop we hem beoordelen.

Kortom: De AI is niet de slechte arts; de examencommissie was het die de regels verkeerd had opgesteld.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Evaluation format, not model capability, drives triage failure in the assessment of consumer health AI" in het Nederlands.

Probleemstelling

Een eerdere studie van Ramaswamy et al. (gepubliceerd in Nature Medicine) concludeerde dat ChatGPT Health 51,6% van de noodgevallen onderschatte (under-triage), wat leidde tot de conclusie dat consumenten-AI voor triage een veiligheidsrisico vormt. Deze bevindingen hebben aanzienlijke publieke en beleidsmatige bezorgdheid opgewekt.

De auteurs van dit artikel betogen echter dat deze conclusie niet voortkomt uit een gebrek aan klinische redeneervermogens van de AI-modellen, maar uit een fundamenteel gebrek aan de evaluatiemethode. De oorspronkelijke studie gebruikte een "exam-style" protocol (gedwongen A/B/C/D-keuzes, onderdrukking van voorkennis en het verbod op verduidelijkende vragen) dat radicaal verschilt van hoe consumenten daadwerkelijk met gezondheidschatbots interageren. Het artikel stelt dat de evaluatieformaten de prestaties van de modellen verstoren en een vertekend beeld van de veiligheid schetsen.

Methodologie

De auteurs voerden een gecontroleerde empirische evaluatie uit om te testen of de gerapporteerde ondertriage-rates reproduceerbaar zijn en hoe gevoelig ze zijn voor het evaluatieformaat.

Modellen: Vijf toonaangevende Large Language Models (LLMs) van drie verschillende providers werden getest:
- GPT-5.2 (OpenAI)
- Claude Sonnet 4.6 en Claude Opus 4.6 (Anthropic)
- Gemini 3 Flash en Gemini 3.1 Pro (Google)
- Opmerking: ChatGPT Health zelf was niet direct toegankelijk, maar de auteurs testten de onderliggende frontier-modellen.
Datasets: Een bank van 17 klinische scenario's, inclusief de kritieke noodgevallen uit de originele studie (diabetische ketoacidose [DKA] en astma-exacerbatie).
Evaluatiecondities:
- Gedwongen conditie (Constrained): Reproductie van het exam-style scaffold van de originele studie. Dit omvatte:
  - Gedwongen output in A/B/C/D-vorm.
  - Instructie: "Baseer je antwoord alleen op de informatie in dit bericht" (onderdrukking van trainingskennis).
  - Verbod op verduidelijkende vragen.
  - Verplichte confidence-schatting.
- Naturalistische conditie (Naturalistic): Modellen ontvingen berichten geschreven in de taal van een echte patiënt (informeel, zonder medische terminologie, zonder evaluatie-instructies). Hierbij was interactie mogelijk en werd geen gedwongen keuze opgelegd.
Ablatiestudies: Specifieke tests om te bepalen welke component van het scaffold de fouten veroorzaakte (bijv. het verwijderen van de gedwongen keuze versus het behouden van de kennis-onderdrukking).
Scoring: In de naturalistische conditie werden de vrije tekst-antwoorden beoordeeld door twee onafhankelijke LLM-adjudicators (met een hoge onderlinge overeenstemming van $\kappa = 0,921$ ) om de primaire triage-aanbeveling te categoriseren.

Belangrijkste Resultaten

Verbetering door naturalistische interactie: De naturalistische conditie leverde een significant hogere triage-nauwkeurigheid op dan de gedwongen conditie: 70,1% vs. 63,6% (+6,4 procentpunten, $p = 0,015$ ).
DKA-resultaten: Diabetische ketoacidose (DKA) werd in 100% van de trials correct getriaged door alle modellen, zowel in de gedwongen als in de naturalistische conditie. Dit suggereert dat de oorspronkelijke "miss" in de DKA-zaak een artefact van de productconfiguratie of evaluatie was, geen inherent modeltekort.
Asthma-resultaten: Voor astma (het scenario dat de meeste ondertriage veroorzaakte) steeg de nauwkeurigheid van 48% naar 80% wanneer de exam-style beperkingen werden verwijderd.
De "Gedwongen Discretisatie" als hoofdoorzaak:
- Drie modellen (GPT-5.2, Gemini 3 Flash, Gemini 3.1 Pro) scoorden extreem slecht (0-24%) met de gedwongen A/B/C/D-keuze, maar 100% met vrije tekst.
- In de vrije tekst gaven deze modellen consistent aan dat spoedeisende zorg nodig was, maar het gedwongen format registreerde dit als "ondertriage" omdat het model niet het juiste lettertje kon kiezen of de beperkingen niet kon omzeilen.
- De Claude-modellen presteerden goed in beide formaten, wat aangeeft dat modelarchitectuur interacteert met de beperkingen.
Prompt-afhankelijkheid: Tests met de exacte prompts uit de originele studie bevestigden dat de resultaten sterk afhankelijk zijn van het specifieke model en het geval. Het verwijderen van de "scaffold" (de evaluatieomhulling) veranderde de uitkomsten, maar niet uniform in één richting.

Belangrijke Bijdragen

Ontmaskering van de Evaluatiebias: Het artikel demonstreert dat de hoge ondertriage-rates voornamelijk worden gedreven door de evaluatieformaten (gedwongen meerkeuze en onderdrukking van interactie) en niet door een fundamenteel onvermogen van de AI om medische noodgevallen te herkennen.
Methodologische Correctie: Het toont aan dat het gebruik van klinische vignettes in een exam-formaat, geschreven in "half-patiëntentaal" maar met klinische precisie, een onrealistische taakstelling creëert die niet overeenkomt met echte consumenteninteracties.
Interactie is cruciaal: Het benadrukt dat triage een multi-turn proces is waarbij verduidelijking essentieel is. Het verbod op verduidelijkende vragen in de evaluatie leidt systematisch tot een onderschatting van de capaciteiten van het model.
Validatie van Frontier Modellen: Het toont aan dat moderne LLMs (zoals GPT-5.2 en Claude Opus 4.6) in staat zijn om kritieke noodgevallen correct te identificeren wanneer ze in een natuurlijke context worden getest.

Significantie en Implicaties

Beleidsimplikatie: De conclusie dat consumenten-AI "fundamenteel onveilig" is voor triage, gebaseerd op de oorspronkelijke studie, is waarschijnlijk onjuist. De resultaten waarschuwen tegen het interpreteren van statische, exam-gebaseerde scores als een stabiele schatting van het gedrag in de praktijk.
Toekomstige Evaluaties: Geldige evaluaties van gezondheids-AI vereisen testen onder omstandigheden die de werkelijke gebruikssituatie weerspiegelen: natuurlijke taal, toelating van verduidelijkende vragen en multi-turn dialogen.
Regulering: Voor regelgevende instanties is het van cruciaal belang om te begrijpen dat evaluatieprotocollen zelf "actief" kunnen zijn en schijnbare fouten kunnen "fabrieken". Methodologische rigoureusheid in prompt-ontwerp is een voorwaarde voor betrouwbare claims over veiligheid.

Kortom, de studie concludeert dat de "kop" van de ondertriage-rates een product is van de meetlat, niet van het model, en dat consumenten-AI onder realistische omstandigheden aanzienlijk veiliger en nauwkeuriger presteert dan de eerdere rapporten suggereerden.

Evaluation format, not model capability, drives triage failure in the assessment of consumer health AI

De Verkeerde Spiegel

De Drie "Valstrikken" in de Test

Het Experiment: AI in het "Echte Leven"

De "Meerkeuze-metode" is de Schuldige

De Grootste Les

Probleemstelling

Methodologie

Belangrijkste Resultaten

Belangrijke Bijdragen

Significantie en Implicaties

Meer zoals dit

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA