daVinci-Env: Open SWE Environment Synthesis at Scale

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 OpenSWE 的大项目，它的核心目标是教人工智能（AI）像真正的软件工程师一样写代码、修 Bug。

为了让你更容易理解，我们可以把训练 AI 写代码想象成培养一名“天才学徒”。

1. 以前的困境：只有理论，没有实战

在 OpenSWE 出现之前，想培养 AI 写代码面临两个大难题：

缺乏“实战演习场”：以前的数据集就像只给学徒看教科书（静态代码），但没有真实的“车间”（可运行的环境）。学徒背熟了语法，但一让他去修一个真实的、复杂的软件系统，他就不知道从哪下手，因为没人告诉他怎么搭建环境、怎么运行测试。
资源门槛太高：搭建这种真实的“车间”非常烧钱且复杂。大公司（工业界）有这种能力，但他们的系统是黑盒（不公开），学术界的小团队根本玩不起。这就导致大家只能在小圈子里打转，很难突破。

2. OpenSWE 的解决方案：建造了一个巨大的“虚拟代码大学”

OpenSWE 团队（来自 SII、GAIR 和上海交通大学等）做了一件惊人的事：他们建造并开源了目前全球最大的“代码实战训练场”。

规模惊人：他们收集了 45,320 个 真实的软件项目（Docker 容器环境），涵盖了 12,800 个 不同的代码仓库。
- 比喻：这相当于给 AI 准备了 4 万多个不同的“模拟车间”，每个车间里都有真实的机器、工具和待修的故障。
完全透明：以前的大公司建了车间不让人看，OpenSWE 不仅把车间建好了，还把建筑图纸（Dockerfile）、施工流程（脚本）和所有工具全部免费公开。任何人都可以复现，甚至在此基础上改进。
自动化流水线：他们不是靠人工一个个搭建，而是用了一群"AI 工人”（多智能体系统）在 64 台超级计算机上自动干活。这些 AI 工人负责找代码、搭环境、写测试题，就像一条全自动的“训练工厂”。

3. 质量把关：不是越多越好，要“因材施教”

光有数量不够，如果题目太简单（比如“把 A 改成 B"）或者题目本身就有错（比如“这个 Bug 其实修不好”），AI 学不到真本事。

难度筛选：OpenSWE 设计了一套严格的“考官系统”。
- 比喻：就像给学徒出题，如果题目是“把‘你好’改成‘再见’"，太简单，练不出水平；如果题目是“这个机器零件根本不存在，你修不了”，那是无效题。
- 他们花了很多钱（约 57.6 万美元）去筛选，只保留那些难度适中、真正能锻炼人的题目。最终，他们从 4 万多个环境中精选出了约 9,000 个高质量环境，并生成了 13,000 条 完美的“解题轨迹”（即 AI 一步步修好 Bug 的全过程记录）。

4. 训练成果：AI 变成了“代码大师”

用这些高质量数据训练出来的 AI 模型（OpenSWE-32B 和 OpenSWE-72B），表现极其出色：

打破纪录：在著名的“软件工程师基准测试”（SWE-bench）中，OpenSWE-72B 模型达到了 66.0% 的通过率，是目前所有同类方法中的世界最强（SOTA）。
举一反三：最神奇的是，这个 AI 不仅修代码变强了，它的数学推理能力提升了 12 分，科学常识提升了 5 分。
- 比喻：这就像学徒在车间里学会了如何拆解复杂的机器，结果发现他做数学题的逻辑也变强了，因为“拆解机器”和“解数学题”都需要严密的逻辑和分步规划能力。

5. 总结：为什么这很重要？

OpenSWE 就像是为 AI 写代码领域修了一条**“高速公路”**。

以前，大家只能在小土路上慢慢跑（数据少、环境差）。
现在，OpenSWE 提供了一条宽阔、透明、高质量的超级公路，并且告诉大家怎么修路。
结果就是，AI 不仅学会了修 Bug，还变得更聪明、逻辑更强，而且这个进步是没有上限的（数据越多，AI 越强，没有出现瓶颈）。

一句话总结：OpenSWE 通过花费巨资搭建了一个透明、巨大且经过严格筛选的“代码实战大学”，让 AI 在里面通过成千上万次真实的“修车”练习，从“只会背公式的书呆子”进化成了“能解决复杂问题的实战专家”。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于 OpenSWE 的论文技术总结，该工作由 SII（商汤科技）、GAIR（上海人工智能实验室）和上海交通大学（SJTU）联合提出。OpenSWE 是目前规模最大、完全透明的 Python 软件工程（SWE）智能体训练框架。

以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

核心挑战：训练强大的软件工程智能体（SWE Agents）需要大规模、可执行且可验证的环境，以提供动态反馈循环（代码编辑、测试执行、方案迭代）。
现有局限：
- 开源数据集：规模有限，仓库多样性不足（如 SWE-bench, SWE-rebench 等）。
- 工业界方案：虽然规模大，但基础设施不透明，未开源，导致学术界无法复现或研究。
- 构建成本：构建大规模验证环境的计算和基础设施成本极高，形成了巨大的资源壁垒。
- 数据质量：自动合成的环境常存在PR-问题不匹配（提交的补丁无法真正解决问题）或过于简单（问题描述直接泄露答案）的情况，导致训练信号无效。

2. 方法论 (Methodology)

OpenSWE 构建了一个端到端的、基于多智能体（Multi-Agent）的合成流水线，部署在 64 个节点的分布式集群上。

2.1 数据收集与过滤 (Data Collection & Filtering)

来源：通过 GitHub API 收集大量 Python 仓库的 Pull Requests (PRs)。
四阶段过滤：
1. 仓库可行性：仅保留 Star 数 $\ge$ 5 的仓库，确保项目成熟度。
2. 语言过滤：仅保留主要语言为 Python 的仓库。
3. 问题要求：PR 必须关联至少一个包含描述的非空 Issue。
4. 实质性代码变更：排除仅修改测试文件的 PR，确保涉及核心代码逻辑。

2.2 多智能体合成流水线 (Multi-Agent Synthesis Pipeline)

该流程利用多个智能体协作，将原始 PR 转化为可执行的 Docker 环境：

仓库探索智能体 (Repository Exploration Agent)：
- 轻量级探索，读取 README.md、依赖文件等，提取构建和测试所需的上下文。
- 采用成本感知的迭代策略，避免冗余遍历。
Dockerfile 构建智能体 (Dockerfile Construction Agent)：
- 策略优化：使用预构建的 openswe-python 基础镜像（覆盖 Python 2.7-3.14），避免构建时的网络超时；利用本地裸仓库缓存替代容器内克隆，消除 API 限制。
- 分层优化：将稳定层与依赖层分离，加速迭代构建。
评估脚本构建智能体 (Evaluation Script Agent)：
- 生成 Bash 脚本，精准定位与 Issue 相关的测试用例。
- 若原 PR 测试不足，智能体会合成新的测试用例。
- 引入特定的退出码标记（OPENSWE EXIT CODE）以可靠解析测试结果。
环境评估与测试分析 (Environment Evaluation & Test Analysis)：
- 规则验证：先运行“仅测试补丁”确认测试失败，再运行“完整修复补丁”确认测试通过。
- 测试分析智能体：诊断失败原因（配置错误、脚本错误、或环境本身不可解），为不可解样本提供早期退出标记，为可修复样本提供反馈。

2.3 分布式基础设施

规模：64 节点集群（每节点 32 vCPU, 128GB RAM, 4TB SSD）。
容错机制：采用数据并行、共享文件系统消息队列、Systemd 进程管理、自动资源清理（防止僵尸容器）以及 Prometheus/Grafana 监控。
成本：环境构建投入约 89.1 万美元，轨迹采样与筛选投入约 57.6 万美元，总计约 147 万美元。

2.4 质量中心过滤 (Quality-Centric Filtering)

不仅追求规模，还通过难度感知（Difficulty-Aware）的筛选流程，剔除不可解或过于简单的样本。
最终从约 9,000 个高质量环境中筛选出约 13,000 条经过策划（Curated）的训练轨迹。

3. 关键贡献 (Key Contributions)

前所未有的规模与透明度：
- 发布了 45,320 个可执行 Docker 环境，覆盖 12,800 个仓库。
- 完全开源：包括所有 Dockerfile、评估脚本、分布式基础设施代码及合成流水线。
以质量为中心的过滤机制：
- 提出了基于难度感知的筛选管道，解决了 PR-问题不匹配和样本过于简单的问题。
- 通过额外的计算投资，构建了约 13,000 条高质量策划轨迹。
强大的实证验证：
- 在 SFT（监督微调）方法中建立了新的 SOTA。
- 证明了数据规模扩展与难度感知筛选的互补性。

4. 实验结果 (Results)

4.1 主要性能 (SWE-Bench Verified)

OpenSWE-32B：达到 62.4% 的通过率。
OpenSWE-72B：达到 66.0% 的通过率。
对比优势：
- 在 Qwen2.5 系列中达到 SOTA。
- 相比 SWE-rebench 训练的数据，在所有设置下均表现更优（32B 模型提升显著，达 12.2%）。
- 即使使用非 Coder 基础模型（Qwen2.5-Base），高质量环境数据也能弥补领域预训练的不足。

4.2 数据扩展性分析 (Data Scaling)

对数线性趋势：Pass@1 随训练步数呈对数线性增长，且未见饱和迹象。
大模型收益更大：72B 模型比 32B 模型从额外数据中获益更多，且随着训练进行，性能差距扩大。
架构无关性：在 OpenHands 和 SWE-Agent 两种不同的智能体框架下，OpenSWE 数据均表现优异。

4.3 通用能力评估 (General Capability)

代码能力：HumanEval 提升显著（32B 模型提升 +29.09%）。
数学与推理：MATH-500 提升 +12.20%，GSM8K 提升 +6.14%。表明 SWE 训练中的多步规划能力泛化到了数学推理。
科学知识：SuperGPQA 和 SciBench 有中等幅度提升。
事实记忆：MMLU 和 TriviaQA 表现稳定或微增，证明 SWE 训练未损害事实性知识。

5. 意义与影响 (Significance)

打破壁垒：OpenSWE 将工业级规模的 SWE 环境构建能力开源，消除了学术界与工业界在基础设施上的巨大鸿沟。
方法论创新：证明了“大规模 + 高质量筛选”比单纯的大规模更重要，且难度感知的筛选能显著提升训练效率。
通用性提升：SWE 任务训练不仅提升了代码能力，还显著增强了模型的数学推理和科学推理能力，为构建通用智能体提供了新的数据范式。
未来方向：由于数据扩展未见饱和，OpenSWE 为未来更大规模的合成环境研究奠定了基础。

总结：OpenSWE 通过构建一个透明、大规模、高质量的 SWE 环境合成框架，不仅刷新了 SWE 智能体的性能记录，还揭示了高质量、难度适配的训练数据对提升模型通用推理能力的关键作用。