Decomposing Physician Disagreement in HealthBench
Deze studie onthult dat de meeste discrepanties tussen artsen in de HealthBench-evaluatie structureel zijn en niet door bestaande metadata verklaard kunnen worden, maar wel dat het onderscheid tussen herleidbare en onherleidbare onzekerheid inzicht biedt in hoe evaluatieontwerp kan worden verbeterd.