Decomposing Physician Disagreement in HealthBench

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groep artsen vraagt om een antwoord van een slimme computer (een AI) te beoordelen op een medische vraag. De vraag is: "Is dit antwoord goed of slecht?"

Je zou denken dat artsen, die allemaal jarenlang hebben gestudeerd, het hier snel over eens zouden zijn. Maar dit onderzoek, getiteld "Decomposing Physician Disagreement in HealthBench", laat zien dat het juist heel vaak misgaat. Van de gevallen waar artsen een oordeel vellen, zijn ze in 22,5% van de gevallen het oneens.

De onderzoekers wilden weten: Waarom zijn ze het oneens? Is het de schuld van de artsen? De regels? Of de vraag zelf?

Hier is de uitleg in simpele taal, met een paar leuke vergelijkingen.

1. Het Grote Geheim: Het ligt aan de "Ding" zelf, niet aan de Mens

De onderzoekers keken naar drie mogelijke oorzaken voor de ruzie:

De Arts: Is de ene arts strenger dan de ander?
De Regel: Is de beoordelingsregel (de "rubriek") vaag?
Het Geval: Is de specifieke situatie gewoon lastig?

Het verrassende resultaat:

De arts zelf maakt bijna niets uit (slechts 2,4% van de reden voor ruzie). Het is niet zo dat dokter A altijd streng is en dokter B altijd mild.
De regel telt wel iets meer mee (ongeveer 16%), maar dat is nog steeds klein.
Het Geval (de specifieke vraag en het antwoord) is de grote boosdoener. 81,8% van de ruzie komt omdat elke situatie uniek en lastig is.

De Analogie:
Stel je voor dat je 100 mensen vraagt om een schilderij te beoordelen.

Als het probleem bij de mensen lag, zou je zien dat "de strenge meneer" altijd 2 sterren geeft en "de vriendelijke mevrouw" altijd 5. Dat is niet wat er gebeurt.
Als het probleem bij de regels lag, zou je zien dat bij "landschappen" iedereen het oneens is, maar bij "portretten" iedereen het eens is. Ook dat is niet het geval.
Wat er wel gebeurt, is dat bij sommige specifieke schilderijen (bijvoorbeeld een abstracte vlek) iedereen het oneens is, terwijl ze bij andere schilderijen het wel eens zijn. Het is dus het schilderij zelf dat de verwarring veroorzaakt, niet de kijkers.

2. De "Grijze Zone" (De Omgekeerde U)

De onderzoekers ontdekten een interessant patroon.

Als een AI-antwoord heel goed is (zoals een perfect recept voor een gebroken been), zijn alle artsen het eens: "Goed!"
Als een antwoord heel slecht is (zoals gevaarlijk advies), zijn alle artsen het eens: "Slecht!"
Maar als het antwoord netjes in het midden zit (een beetje goed, maar niet perfect), dan breekt het uit elkaar.

De Analogie:
Denk aan een sportwedstrijd. Als een team wint met 10-0, is er geen discussie. Als ze verliezen met 0-10, is er ook geen discussie. Maar als het 1-1 staat en er wordt een strafschop gegeven, dan begint de discussie pas echt: "Was het wel een overtreding?" De ruzie ontstaat alleen in die grijze zone van grensgevallen.

3. Het Verschil tussen "Duidelijke" en "Onoplosbare" Verwarring

Dit is misschien wel het belangrijkste punt van het hele onderzoek. De onderzoekers keken naar twee soorten verwarring:

Oplosbare verwarring (Reducible): De vraag was onduidelijk, er ontbrak informatie, of de zin was raar geformuleerd.
- Resultaat: Hier zijn artsen wel het oneens over. Als je de vraag beter maakt, wordt de ruzie minder.
Onoplosbare verwarring (Irreducible): De medische situatie is echt dubbelzinnig (bijvoorbeeld: "Is dit nu ziekte X of ziekte Y? Zelfs de beste artsen weten het niet zeker").
- Resultaat: Hier zijn artsen niet meer oneens dan normaal.

De Analogie:
Stel je voor dat je een raadsel moet oplossen.

Als het raadsel slecht is geschreven (ontbrekende letters), dan zijn mensen het oneens omdat ze de puzzel niet kunnen oplossen. Als je de letters toevoegt, is het raadsel opgelost.
Maar als het raadsel echt onoplosbaar is (bijvoorbeeld: "Wat is de betekenis van het leven?"), dan zijn mensen het oneens, maar dat heeft niets te maken met de kwaliteit van de vraag. Het is gewoon een lastig onderwerp.

Het onderzoek toont aan dat de meeste ruzie komt door slechte vragen of ontbrekende info (de oplosbare verwarring), en niet omdat de medische wereld zelf zo onduidelijk is.

4. Waarom is dit belangrijk?

Vroeger dachten mensen: "AI is niet goed genoeg omdat artsen het er niet over eens zijn."
Dit onderzoek zegt: "Nee, artsen zijn het er vaak niet over eens omdat de situaties lastig zijn, niet omdat de artsen slecht zijn."

De plafond-effect: Er is een "plafond" aan hoe goed een AI kan scoren. Zelfs als de AI perfect is, kan hij niet beter scoren dan de artsen het met elkaar eens zijn. Als artsen het maar 75% eens zijn, kan de AI ook niet hoger dan 75% scoren.
De oplossing: We moeten niet proberen de artsen te trainen om het eens te worden. We moeten de vragen en scenario's beter maken. Als we zorgen dat er geen informatie ontbreekt en de vragen duidelijk zijn, dan verdwijnt een deel van de ruzie.

Samenvatting in één zin

De ruzie tussen artsen over AI-antwoorden komt niet doordat de artsen verschillend denken, maar doordat de specifieke situaties vaak vaag of incompleet zijn; als we die situaties duidelijker maken, wordt er minder geruzied, maar een deel van de onzekerheid blijft altijd bestaan omdat sommige medische vragen nu eenmaal geen eenduidig antwoord hebben.

Each language version is independently generated for its own context, not a direct translation.

Titel: Het ontleden van artsensamenwerking in HealthBench

Auteurs: Satya Borgohain en Roy Mariathas

1. Probleemstelling

Grote Taalmodellen (LLM's) worden steeds vaker gebruikt voor medische informatie, wat de betrouwbaarheid van evaluaties cruciaal maakt. Echter, bij het beoordelen van antwoorden van AI-modellen door artsen treedt vaak onenigheid op. In de HealthBench-dataset (een grote dataset voor medische AI-evaluatie) leidt dit tot een onenigheidsgraad van 22,5%.

De kernvraag is: Waar zit de variatie in deze onenigheid?
Bestaande literatuur suggereert dat onenigheid wordt veroorzaakt door ambiguïteit in criteria, gesprekken, specialisatieverschillen en risicobereidheid. Echter, er ontbreekt een kwantitatieve decompositie van deze bronnen. De auteurs willen begrijpen hoeveel variatie te verklaren is door de arts, het beoordelingskader (rubric), de casus zelf, of andere observabele kenmerken, en of deze onenigheid een structurele bovengrens (ceiling) vormt voor de prestaties van AI-evaluatoren.

2. Methodologie

De studie analyseert de HealthBench meta-evaluatie dataset, bestaande uit:

29.511 unieke gevallen (prompt × antwoord × beoordelingscriterium).
60.896 individuele oordelen van 186 geanonimiseerde artsen.
34 unieke beoordelingscriteria (rubrics) met een binaire uitkomst (voldoet/niet-voldoet).
Een mediane van 2 beoordelaars per geval.

De analyse verloopt in negen fasen met de volgende methoden:

Variance Decomposition (Lineaire Gemengde Modellen - LMM): Het partitioneren van de variantie in de labels en de onenigheid zelf, met arts en rubric als willekeurige effecten.
Statistische Tests: Gebruik van Generalized Linear Mixed Models (GLMM), ANOVA, en logistische regressie met geclusterde standaardfouten.
Predictive Modeling: Het testen van oppervlaktekenmerken (woordtelling, lengte) en semantische embeddings (Google Gemini embeddings) om onenigheid te voorspellen.
Uncertainty Categorization: Analyse van een subdataset (Consensus dataset) met door artsen gevalideerde tags voor "reducerbare onzekerheid" (ontbrekende context) versus "irreducerbare onzekerheid" (echte medische ambiguïteit).

3. Belangrijkste Resultaten

A. Variantie-decompositie (Waar zit de variatie?)

Casus-niveau dominantie: De overgrote meerderheid van de variantie in onenigheid (81,8%) zit op het niveau van de individuele casus (residu). Dit komt overeen met "patroonruis" (case-specific variatie) in de theorie van Kahneman et al.
Beoordelaar en Rubric:
- De identiteit van de arts verklaart slechts 2,4% van de variantie (niveau-ruis/consistentieverschillen).
- De identiteit van het beoordelingscriterium (rubric) verklaart 15,8% van de variantie in de labels (voldoet/niet), maar slechts 3,6% tot 6,9% van de variantie in de onenigheid zelf.
Conclusie: Onenigheid is voornamelijk casusspecifiek, niet afhankelijk van wie de arts is of welk kader wordt gebruikt.

B. Verklarende Factoren

De auteurs testten diverse factoren om de 81,8% residu te verklaren:

Medische Specialisatie: Er is geen significant effect van het evalueren binnen de eigen specialisatie. Hoewel er heterogeniteit is tussen specialisaties (ANOVA significant), zijn er geen uitbijters; de verschillen zijn diffuus.
Rubric-taal: Normatieve taal in criteria heeft een klein, maar significant effect ( $p=0.005$ ), maar verklaart slechts 1,2% van de variantie.
Metadata: De bestaande metadata-tags van HealthBench (thema, categorie) verkleinen het residu niet significant ( $z = -0.22, p = 0.83$ ).
Kwaliteit van het Antwoord: Er is een invers-U-relatie tussen de kwaliteit van het antwoord (gemeten als gemiddelde pass-rate) en onenigheid. Artsen zijn het eens bij zeer goede of zeer slechte antwoorden, maar splitsen bij "grensgevallen" (AUC = 0,689).
Predictieve Modellen: Zowel oppervlaktekenmerken (AUC = 0,58) als semantische embeddings (AUC = 0,485) slagen er niet in om onenigheid betrouwbaar te voorspellen. De onenigheid zit waarschijnlijk in subtiele interacties tussen rubric en antwoord die niet in de tekst zelf te vinden zijn.

C. Reducereerbare vs. Irreducereerbare Onzekerheid

Dit is een cruciale bevinding uit de Consensus-dataset:

Reducereerbare onzekerheid (ontbrekende context, ambiguïteit in formulering): Verdubbelt de kans op onenigheid (OR = 2,55, $p < 10^{-24}$ ).
Irreducereerbare onzekerheid (echte medische ambiguïteit): Heeft geen effect op onenigheid (OR = 1,01, $p = 0.90$ ). Artsen zijn even vaak het oneens bij medisch onduidelijke gevallen als bij duidelijke gevallen.
Beperking: Zelfs reducereerbare onzekerheid verklaart slechts ~3,4% van de totale variantie.

4. Bijdragen en Significantie

Structuur van Onenigheid: De studie bewijst dat de "ceiling" voor overeenstemming in medische AI-evaluatie grotendeels structureel is en ligt in de casus-specifieke interacties (rubric × antwoord), niet in de beoordelaars zelf.
Onderscheid in Onzekerheid: Het onderscheid tussen "reducereerbare" en "irreducereerbare" onzekerheid is fundamenteel. Het suggereert dat het oplossen van informatie-gaten (ontbrekende context) onenigheid kan verminderen, terwijl echte medische ambiguïteit dat niet doet.
Implicaties voor AI-evaluatie:
- De huidige prestaties van AI-graders (bijv. GPT-4.1) worden beperkt door de menselijke onenigheidsgraad, niet door een gebrek aan modelkwaliteit.
- Het samenvoegen van artsenoordelen tot één "ground truth" is problematisch omdat het casus-specifieke onzekerheid behandelt als fout.
- Toekomstige benchmarks moeten rekening houden met de variantiestructuur van menselijke labels en mogelijk metrics gebruiken die rekening houden met onenigheid (bijv. het onderscheiden van "model had ongelijk" vs. "model stemde in met een minderheid").
Aanbevelingen:
- Verbetering van prompts en scenario's om informatie-gaten te dichten (reducereerbare onzekerheid).
- Gebruik van disagreement-aware metrics in plaats van alleen aggregate F1-scores.
- Verdere research naar de scheiding tussen patroonruis (systematisch) en occasionele ruis (stochastisch) door test-hertest studies met artsen.

Conclusie

De studie concludeert dat de meeste variatie in artsensamenwerking in HealthBench onverklaarbaar blijft door de geteste observabele kenmerken en voornamelijk voortkomt uit casus-specifieke patronen. Hoewel het dichten van informatie-gaten een actiebaar punt is om onenigheid te verminderen, blijft een groot deel van de onenigheid structureel en inherent aan de complexiteit van medische beoordeling. Dit onderstreept de noodzaak om AI-evaluaties te interpreteren binnen de context van deze menselijke onzekerheid.