Decomposing Physician Disagreement in HealthBench
Die Studie zeigt, dass die Diskrepanz zwischen Ärzten bei der Bewertung medizinischer KI hauptsächlich strukturell bedingt ist und sich zwar durch das Schließen von Informationslücken in Randfällen, nicht aber durch die Beseitigung inhärenter medizinischer Unsicherheiten reduzieren lässt.