PRBench: End-to-end Paper Reproduction in Physics Research
Ce papier présente PRBench, un benchmark rigoureux de 30 tâches en physique évaluant la capacité des agents IA à reproduire intégralement des recherches scientifiques, révélant que les meilleurs modèles actuels échouent systématiquement à produire des résultats valides et précis.