PRBench: End-to-end Paper Reproduction in Physics Research
Die Studie stellt PRBench vor, einen Benchmark aus 30 physikalischen Reproduktionsaufgaben, der zeigt, dass aktuelle KI-Agenten trotz starker Fähigkeiten bei der Codegenerierung bei der vollständigen und fehlerfreien Nachbildung wissenschaftlicher Ergebnisse aus echten Publikationen noch erhebliche Defizite aufweisen.