Decomposing Physician Disagreement in HealthBench

Deze studie onthult dat de meeste discrepanties tussen artsen in de HealthBench-evaluatie structureel zijn en niet door bestaande metadata verklaard kunnen worden, maar wel dat het onderscheid tussen herleidbare en onherleidbare onzekerheid inzicht biedt in hoe evaluatieontwerp kan worden verbeterd.

Satya Borgohain, Roy Mariathas

Gepubliceerd 2026-03-10
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groep artsen vraagt om een antwoord van een slimme computer (een AI) te beoordelen op een medische vraag. De vraag is: "Is dit antwoord goed of slecht?"

Je zou denken dat artsen, die allemaal jarenlang hebben gestudeerd, het hier snel over eens zouden zijn. Maar dit onderzoek, getiteld "Decomposing Physician Disagreement in HealthBench", laat zien dat het juist heel vaak misgaat. Van de gevallen waar artsen een oordeel vellen, zijn ze in 22,5% van de gevallen het oneens.

De onderzoekers wilden weten: Waarom zijn ze het oneens? Is het de schuld van de artsen? De regels? Of de vraag zelf?

Hier is de uitleg in simpele taal, met een paar leuke vergelijkingen.

1. Het Grote Geheim: Het ligt aan de "Ding" zelf, niet aan de Mens

De onderzoekers keken naar drie mogelijke oorzaken voor de ruzie:

  1. De Arts: Is de ene arts strenger dan de ander?
  2. De Regel: Is de beoordelingsregel (de "rubriek") vaag?
  3. Het Geval: Is de specifieke situatie gewoon lastig?

Het verrassende resultaat:

  • De arts zelf maakt bijna niets uit (slechts 2,4% van de reden voor ruzie). Het is niet zo dat dokter A altijd streng is en dokter B altijd mild.
  • De regel telt wel iets meer mee (ongeveer 16%), maar dat is nog steeds klein.
  • Het Geval (de specifieke vraag en het antwoord) is de grote boosdoener. 81,8% van de ruzie komt omdat elke situatie uniek en lastig is.

De Analogie:
Stel je voor dat je 100 mensen vraagt om een schilderij te beoordelen.

  • Als het probleem bij de mensen lag, zou je zien dat "de strenge meneer" altijd 2 sterren geeft en "de vriendelijke mevrouw" altijd 5. Dat is niet wat er gebeurt.
  • Als het probleem bij de regels lag, zou je zien dat bij "landschappen" iedereen het oneens is, maar bij "portretten" iedereen het eens is. Ook dat is niet het geval.
  • Wat er wel gebeurt, is dat bij sommige specifieke schilderijen (bijvoorbeeld een abstracte vlek) iedereen het oneens is, terwijl ze bij andere schilderijen het wel eens zijn. Het is dus het schilderij zelf dat de verwarring veroorzaakt, niet de kijkers.

2. De "Grijze Zone" (De Omgekeerde U)

De onderzoekers ontdekten een interessant patroon.

  • Als een AI-antwoord heel goed is (zoals een perfect recept voor een gebroken been), zijn alle artsen het eens: "Goed!"
  • Als een antwoord heel slecht is (zoals gevaarlijk advies), zijn alle artsen het eens: "Slecht!"
  • Maar als het antwoord netjes in het midden zit (een beetje goed, maar niet perfect), dan breekt het uit elkaar.

De Analogie:
Denk aan een sportwedstrijd. Als een team wint met 10-0, is er geen discussie. Als ze verliezen met 0-10, is er ook geen discussie. Maar als het 1-1 staat en er wordt een strafschop gegeven, dan begint de discussie pas echt: "Was het wel een overtreding?" De ruzie ontstaat alleen in die grijze zone van grensgevallen.

3. Het Verschil tussen "Duidelijke" en "Onoplosbare" Verwarring

Dit is misschien wel het belangrijkste punt van het hele onderzoek. De onderzoekers keken naar twee soorten verwarring:

  1. Oplosbare verwarring (Reducible): De vraag was onduidelijk, er ontbrak informatie, of de zin was raar geformuleerd.
    • Resultaat: Hier zijn artsen wel het oneens over. Als je de vraag beter maakt, wordt de ruzie minder.
  2. Onoplosbare verwarring (Irreducible): De medische situatie is echt dubbelzinnig (bijvoorbeeld: "Is dit nu ziekte X of ziekte Y? Zelfs de beste artsen weten het niet zeker").
    • Resultaat: Hier zijn artsen niet meer oneens dan normaal.

De Analogie:
Stel je voor dat je een raadsel moet oplossen.

  • Als het raadsel slecht is geschreven (ontbrekende letters), dan zijn mensen het oneens omdat ze de puzzel niet kunnen oplossen. Als je de letters toevoegt, is het raadsel opgelost.
  • Maar als het raadsel echt onoplosbaar is (bijvoorbeeld: "Wat is de betekenis van het leven?"), dan zijn mensen het oneens, maar dat heeft niets te maken met de kwaliteit van de vraag. Het is gewoon een lastig onderwerp.

Het onderzoek toont aan dat de meeste ruzie komt door slechte vragen of ontbrekende info (de oplosbare verwarring), en niet omdat de medische wereld zelf zo onduidelijk is.

4. Waarom is dit belangrijk?

Vroeger dachten mensen: "AI is niet goed genoeg omdat artsen het er niet over eens zijn."
Dit onderzoek zegt: "Nee, artsen zijn het er vaak niet over eens omdat de situaties lastig zijn, niet omdat de artsen slecht zijn."

  • De plafond-effect: Er is een "plafond" aan hoe goed een AI kan scoren. Zelfs als de AI perfect is, kan hij niet beter scoren dan de artsen het met elkaar eens zijn. Als artsen het maar 75% eens zijn, kan de AI ook niet hoger dan 75% scoren.
  • De oplossing: We moeten niet proberen de artsen te trainen om het eens te worden. We moeten de vragen en scenario's beter maken. Als we zorgen dat er geen informatie ontbreekt en de vragen duidelijk zijn, dan verdwijnt een deel van de ruzie.

Samenvatting in één zin

De ruzie tussen artsen over AI-antwoorden komt niet doordat de artsen verschillend denken, maar doordat de specifieke situaties vaak vaag of incompleet zijn; als we die situaties duidelijker maken, wordt er minder geruzied, maar een deel van de onzekerheid blijft altijd bestaan omdat sommige medische vragen nu eenmaal geen eenduidig antwoord hebben.