MedCalc-Bench Doesn't Measure What You Think: A Benchmark Audit and the Case for Open-Book Evaluation
Cet article remet en cause la pertinence du benchmark MedCalc-Bench en révélant des erreurs dans ses implémentations, en démontrant que l'accès aux spécifications des calculateurs (« open-book ») permet d'atteindre des performances supérieures à celles des systèmes à apprentissage par renforcement, et en concluant que ce benchmark évalue principalement la mémorisation de formules et la précision arithmétique plutôt que le raisonnement clinique.