PRBench: End-to-end Paper Reproduction in Physics Research
O artigo apresenta o PRBench, um benchmark rigoroso de 30 tarefas curadas por especialistas em 11 subáreas da física para avaliar a capacidade de agentes de IA de reproduzir integralmente pesquisas científicas, revelando que os modelos atuais, mesmo os mais avançados, ainda falham em executar com sucesso essa tarefa de ponta a ponta devido a erros críticos na implementação de fórmulas, correção de código e precisão de dados.