PRBench: End-to-end Paper Reproduction in Physics Research
Dit paper introduceert PRBench, een benchmark van 30 door experts samengestelde taken voor het reproduceren van natuurkundepapers, en onthult dat de huidige AI-agenten, zelfs de best presterende, nog niet in staat zijn om betrouwbare eind-tot-eind wetenschappelijke reprodukties uit te voeren.
Shi Qiu, Junyi Deng, Yiwei Deng, Haoran Dong, Jieyu Fu, Mao Li, Zeyu Li, Zhaolong Zhang, Huiwen Zheng, Leidong Bao, Anqi Lv, Zihan Mo, Yadi Niu, Yiyang Peng, Yu Tian, Yili Wang, Ziyu Wang, Zi-Yu Wang (…)2026-03-31⚛️ hep-lat