PRBench: End-to-end Paper Reproduction in Physics Research
Il paper introduce PRBench, un benchmark rigoroso composto da 30 compiti curati da esperti che valutano la capacità degli agenti AI di riprodurre end-to-end ricerche scientifiche in fisica, rivelando che, nonostante le loro potenzialità, gli agenti attuali ottengono prestazioni complessive molto basse (34%) e falliscono sistematicamente nella corretta implementazione di formule, nel debug e nell'accuratezza dei dati.