ResearchEnvBench: Benchmarking Agents on Environment Synthesis for Research Code Execution
O artigo apresenta o ResearchEnvBench, um novo benchmark que avalia a capacidade de agentes autônomos de sintetizar ambientes de execução para código de pesquisa, revelando lacunas significativas nas soluções atuais quanto à resolução de dependências e compatibilidade de versões.