daVinci-Env: Open SWE Environment Synthesis at Scale

本文提出了名为 daVinci-Env(OpenSWE)的开源大规模软件工程环境合成框架,通过多智能体分布式集群构建了包含 4.5 万余个可执行 Docker 环境的透明数据集,并经由严格的质量筛选与轨迹挖掘,显著提升了 SWE 智能体在代码修复及跨领域推理任务中的性能。

Dayuan Fu, Shenyu Wu, Yunze Wu, Zerui Peng, Yaxing Huang, Jie Sun, Ji Zeng, Mohan Jiang, Lin Zhang, Yukun Li, Jiarui Hu, Liming Liu, Jinlong Hou, Pengfei Liu

发布于 2026-03-16
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 OpenSWE 的大项目,它的核心目标是教人工智能(AI)像真正的软件工程师一样写代码、修 Bug

为了让你更容易理解,我们可以把训练 AI 写代码想象成培养一名“天才学徒”

1. 以前的困境:只有理论,没有实战

在 OpenSWE 出现之前,想培养 AI 写代码面临两个大难题:

  • 缺乏“实战演习场”:以前的数据集就像只给学徒看教科书(静态代码),但没有真实的“车间”(可运行的环境)。学徒背熟了语法,但一让他去修一个真实的、复杂的软件系统,他就不知道从哪下手,因为没人告诉他怎么搭建环境、怎么运行测试。
  • 资源门槛太高:搭建这种真实的“车间”非常烧钱且复杂。大公司(工业界)有这种能力,但他们的系统是黑盒(不公开),学术界的小团队根本玩不起。这就导致大家只能在小圈子里打转,很难突破。

2. OpenSWE 的解决方案:建造了一个巨大的“虚拟代码大学”

OpenSWE 团队(来自 SII、GAIR 和上海交通大学等)做了一件惊人的事:他们建造并开源了目前全球最大的“代码实战训练场”

  • 规模惊人:他们收集了 45,320 个 真实的软件项目(Docker 容器环境),涵盖了 12,800 个 不同的代码仓库。
    • 比喻:这相当于给 AI 准备了 4 万多个不同的“模拟车间”,每个车间里都有真实的机器、工具和待修的故障。
  • 完全透明:以前的大公司建了车间不让人看,OpenSWE 不仅把车间建好了,还把建筑图纸(Dockerfile)、施工流程(脚本)和所有工具全部免费公开。任何人都可以复现,甚至在此基础上改进。
  • 自动化流水线:他们不是靠人工一个个搭建,而是用了一群"AI 工人”(多智能体系统)在 64 台超级计算机上自动干活。这些 AI 工人负责找代码、搭环境、写测试题,就像一条全自动的“训练工厂”。

3. 质量把关:不是越多越好,要“因材施教”

光有数量不够,如果题目太简单(比如“把 A 改成 B")或者题目本身就有错(比如“这个 Bug 其实修不好”),AI 学不到真本事。

  • 难度筛选:OpenSWE 设计了一套严格的“考官系统”。
    • 比喻:就像给学徒出题,如果题目是“把‘你好’改成‘再见’",太简单,练不出水平;如果题目是“这个机器零件根本不存在,你修不了”,那是无效题。
    • 他们花了很多钱(约 57.6 万美元)去筛选,只保留那些难度适中、真正能锻炼人的题目。最终,他们从 4 万多个环境中精选出了约 9,000 个高质量环境,并生成了 13,000 条 完美的“解题轨迹”(即 AI 一步步修好 Bug 的全过程记录)。

4. 训练成果:AI 变成了“代码大师”

用这些高质量数据训练出来的 AI 模型(OpenSWE-32B 和 OpenSWE-72B),表现极其出色:

  • 打破纪录:在著名的“软件工程师基准测试”(SWE-bench)中,OpenSWE-72B 模型达到了 66.0% 的通过率,是目前所有同类方法中的世界最强(SOTA)
  • 举一反三:最神奇的是,这个 AI 不仅修代码变强了,它的数学推理能力提升了 12 分,科学常识提升了 5 分。
    • 比喻:这就像学徒在车间里学会了如何拆解复杂的机器,结果发现他做数学题的逻辑也变强了,因为“拆解机器”和“解数学题”都需要严密的逻辑和分步规划能力。

5. 总结:为什么这很重要?

OpenSWE 就像是为 AI 写代码领域修了一条**“高速公路”**。

  • 以前,大家只能在小土路上慢慢跑(数据少、环境差)。
  • 现在,OpenSWE 提供了一条宽阔、透明、高质量的超级公路,并且告诉大家怎么修路。
  • 结果就是,AI 不仅学会了修 Bug,还变得更聪明、逻辑更强,而且这个进步是没有上限的(数据越多,AI 越强,没有出现瓶颈)。

一句话总结:OpenSWE 通过花费巨资搭建了一个透明、巨大且经过严格筛选的“代码实战大学”,让 AI 在里面通过成千上万次真实的“修车”练习,从“只会背公式的书呆子”进化成了“能解决复杂问题的实战专家”。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →