Decomposing Physician Disagreement in HealthBench
O estudo demonstra que a maior parte da discordância entre médicos na avaliação de IA em saúde é estrutural e inerente a casos clínicos limítrofes, embora a redução de incertezas evitáveis, como falta de contexto, possa oferecer melhorias pontuais no design da avaliação.