PRBench: End-to-end Paper Reproduction in Physics Research
Il paper introduce PRBench, un benchmark rigoroso composto da 30 compiti curati da esperti che valutano la capacità degli agenti AI di riprodurre end-to-end ricerche scientifiche in fisica, rivelando che, nonostante le loro potenzialità, gli agenti attuali ottengono prestazioni complessive molto basse (34%) e falliscono sistematicamente nella corretta implementazione di formule, nel debug e nell'accuratezza dei dati.
Shi Qiu, Junyi Deng, Yiwei Deng, Haoran Dong, Jieyu Fu, Mao Li, Zeyu Li, Zhaolong Zhang, Huiwen Zheng, Leidong Bao, Anqi Lv, Zihan Mo, Yadi Niu, Yiyang Peng, Yu Tian, Yili Wang, Ziyu Wang, Zi-Yu Wang (…)2026-03-31⚛️ hep-lat