ResearchEnvBench: Benchmarking Agents on Environment Synthesis for Research Code Execution

该论文提出了 ResearchEnvBench 基准,旨在评估自主智能体在给定研究代码库和文档时自动构建可运行执行环境的能力,并揭示了当前最先进模型在解决复杂依赖和版本耦合方面存在的显著差距。

Yubang Wang, Chenxi Zhang, Bowen Chen, Zezheng Huai, Zihao Dai, Xinchi Chen, Yuxin Wang, Yining Zheng, Jingjing Gong, Xipeng Qiu

发布于 Tue, 10 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 ResearchEnvBench 的新“考试”,专门用来测试人工智能(AI)代理(Agent)有没有能力从零开始搭建一个能跑通的科研实验环境

为了让你更容易理解,我们可以把这篇论文的核心内容想象成一场"AI 厨师的厨房大考"。

1. 背景:以前的考试太“假”了

  • 现状:以前测试 AI 写代码的能力,就像给 AI 厨师一个已经装修好、水电煤气全通、调料齐全的高级厨房,然后让它做一道菜。AI 只要把菜炒好就行。
  • 问题:但在真实的科研世界里(比如搞深度学习、超算),情况完全不一样。真实的“厨房”可能连水电都没通,灶台型号不对,甚至没有锅。
    • 你需要自己安装复杂的软件(像安装特定的燃气灶)。
    • 你需要让显卡驱动和软件版本完美匹配(像确保煤气灶和锅具兼容)。
    • 你需要配置多台机器一起工作(像让十个厨师协同做饭)。
  • 痛点:以前的考试没考过这些“搭厨房”的能力。很多 AI 虽然代码写得漂亮,但一旦让它自己搭建环境,它就“翻车”了,因为环境根本跑不起来。

2. 新考试:ResearchEnvBench(科研环境合成基准)

为了解决这个问题,作者们搞了一个新的“考场”。

  • 考题:给 AI 一个刚下载的、还没配置好的科研代码库(就像给 AI 一堆散乱的食材和一张复杂的食谱)。
  • 任务:AI 必须自己把“厨房”搭建好,直到代码能真正运行起来,并且能产出结果。
  • 难度:这 44 个考题(44 个真实的科研代码库)都是 2024 年以后的“硬菜”,涉及复杂的显卡驱动、自定义的底层代码和分布式计算。

3. 评分标准:金字塔式的“五层安检”

作者设计了一个像金字塔一样的层层递进的检查流程,只有通过了每一层,才算真正“毕业”:

  1. 第一层(C0 - 静态检查):看看食谱(代码)里有没有缺少的调料(导入包)。这是最基础的,但光有调料不代表能开火。
  2. 第二层(C1 - CPU 运行):能不能在普通的炉灶(CPU)上把菜做熟?这证明环境基本通了。
  3. 第三层(C2 - 硬件对齐):能不能认出你的高级燃气灶(NVIDIA 显卡驱动)?很多 AI 在这里就卡住了,因为驱动和软件版本不匹配。
  4. 第四层(C3 - 单卡计算):能不能在高级燃气灶上真正炒出菜来?很多 AI 以为能用了,结果一运行就报错。
  5. 第五层(C4 - 分布式运行):能不能指挥十个厨师(多张显卡)一起协同做饭?这是最难的一关,也是现代 AI 科研的终极挑战。

还有一个特殊的扣分项(C5 - 幻觉检测):

  • 如果 AI 厨师说“菜做好了”,但实际一尝是生的,或者它吹嘘自己用了某种高级调料但根本没买,这就叫"能力幻觉"。这个考试专门抓这种“嘴强王者”。

4. 考试结果:AI 们表现如何?

作者找了四个最厉害的 AI 厨师(包括 Claude, GPT 等)来考试,结果发现:

  • 差距巨大:虽然有些 AI 能搞定 90% 的“硬件识别”(C2),但一旦到了“真正运行”(C3/C4)的阶段,成功率直接暴跌到 37.5% 左右。
  • 主要死因
    • 缺“隐形”零件:代码里没写清楚需要编译某些特殊的底层组件(就像食谱没写需要把锅具自己组装一下)。
    • 版本太脆弱:软件版本差一点点就不兼容。
    • 盲目自信:很多 AI 看到安装日志显示“成功”,就以为万事大吉,实际上根本没法运行。
  • 效率问题:有些 AI 为了保险起见,安装了成吨的无用软件(像为了做一道菜把整个超市搬进厨房),既慢又占地方,最后还没解决问题。

5. 核心启示

这篇论文告诉我们:现在的 AI 虽然很聪明,能写代码,但还不太会“修电脑”和“搭环境”。

在真正的科学发现中,“能运行”比“能写代码”更重要。如果环境搭不起来,再完美的代码也是废纸。这个新基准(ResearchEnvBench)就是为了逼迫 AI 进化,让它们不仅能写菜谱,还能真正把厨房建好、把菜做熟,并且诚实地报告结果,而不是在那“吹牛”。

一句话总结
这就好比以前只考 AI“会不会炒菜”,现在我们要考它“能不能自己从盖房子开始,把厨房建好、通水电、配好灶具,最后把菜炒熟并端上桌”。目前的 AI 厨师,离这个目标还有很长的路要走。