BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给现在的"AI 程序员”做了一次极其严苛的“越级考试”。

简单来说，以前的考试（比如 SWE-bench）只考“在自家院子里修修补补”，而这次考试（BeyondSWE）直接把他们扔到了“整个城市甚至跨国界”的复杂环境中，看他们能不能活下来。

下面我用几个生动的比喻来拆解这篇论文的核心内容：

1. 背景：以前的考试太“温室”了

想象一下，以前的 AI 程序员就像是在幼儿园里学修玩具的孩子。

考试环境：只给一个玩具箱（单个代码仓库），只修一个坏掉的齿轮（单个 Bug）。
现状：这些 AI 在幼儿园里表现很好，能修好 80% 的玩具。
问题：真正的软件开发不是修玩具，而是盖大楼。工程师需要去隔壁工地借图纸（跨仓库）、懂量子物理知识（领域知识）、把旧大楼拆了重建以适应新地基（依赖迁移），甚至完全凭空画图纸盖一栋新楼（文档生成）。

论文的核心问题就是：当把这些"AI 幼儿园毕业生”扔到真正的“建筑工地”时，他们还能干活吗？

2. 新考场：BeyondSWE（超越单一仓库的基准）

作者设计了一个名为 BeyondSWE 的新考场，就像把考试难度从“幼儿园”直接拉到了“世界技能大赛”。这个考场有四个地狱级关卡：

关卡一：跨仓库救援 (CrossRepo)
- 比喻：你的车坏了，但你手里的说明书只有一半。你必须去隔壁邻居的车库，看看他们是怎么修同款车的，然后借鉴他们的方案修好你的车。
- 挑战：AI 需要知道去哪里找“邻居”，并理解邻居的图纸是否适用于自己。
关卡二：专家级难题 (DomainFix)
- 比喻：让你修一个核反应堆或者基因编辑仪。你不仅得会拧螺丝，还得懂核物理或生物学。
- 挑战：普通的编程知识不够用，AI 必须拥有像人类专家那样的“领域知识”。
关卡三：大规模拆迁重建 (DepMigrate)
- 比喻：政府突然规定所有建筑必须改用“新型抗震材料”（比如 Python 库从 1.0 升级到 2.0）。你不仅要换材料，还要把整栋大楼里几千个房间的结构全部重新调整，不能塌房。
- 挑战：这是全局性的修改，牵一发而动全身，AI 很容易改错一处导致全盘崩溃。
关卡四：无中生有 (Doc2Repo)
- 比喻：给你一张手绘的草图（需求文档），让你从零开始盖一栋能住人的大楼，而且不能有任何现成的砖块（没有现有代码）。
- 挑战：考验 AI 的架构设计能力，而不仅仅是修补能力。

3. 考试成绩：惨不忍睹

当把目前最顶尖的 AI 模型（如 GPT-5, Gemini 3 等）扔进这个考场后，结果很扎心：

及格线都没摸到：即使是最好的模型，通过率也不到 45%。
偏科严重：有的模型擅长修小 bug，有的擅长盖楼，但没有一个全能冠军。
结论：现在的 AI 程序员，在“单点修补”上很厉害，但一旦离开舒适区，面对复杂的现实工程，它们就**“水土不服”**了。

4. 新工具：SearchSWE（给 AI 配个“搜索引擎”）

既然 AI 知识不够，作者想：那给它们配个谷歌搜索和浏览器，让它们像人类工程师一样，遇到问题先上网查资料，再回来写代码，行不行？

于是他们开发了 SearchSWE 框架。

预期：AI 应该能“边查边写”，像人类一样灵活。
现实：翻车了。
- 有时候有用：查到了正确的文档，确实能解决问题。
- 更多时候是添乱：
  1. 信息过载：搜出来一堆过时的、错误的或者不相关的资料，AI 被带偏了。
  2. 版本混乱：网上搜的是“最新版”教程，但你的电脑里装的是“旧版”软件，AI 照着新教程改，结果代码跑不起来。
  3. 噪音干扰：搜出来的信息太杂，AI 反而不知道听谁的，最后写出的代码比不搜还烂。

核心发现：现在的 AI 就像是一个**“只会死记硬背的学生”，突然给了它一本百科全书，它反而不会用，甚至会被书里的错误信息带偏。“会搜索”和“会写代码”这两项能力，在现在的 AI 身上并没有完美融合。**

5. 总结与启示

这篇论文就像是一盆冷水，泼醒了那些认为"AI 已经能完全替代程序员”的幻想。

现状：AI 在简单的、封闭的修 Bug 任务上很强，但在需要跨领域思考、全局架构、查阅外部资料的真实工程场景下，还非常稚嫩。
未来方向：我们需要教 AI 如何像人类专家一样思考——知道什么时候该查资料，什么时候该相信本地代码，如何过滤网上的噪音，以及如何把查到的知识真正转化为代码。

一句话总结：
现在的 AI 程序员就像是一个只会做数学题的学霸，让他去修水管、盖房子、甚至设计城市规划，他虽然拿着工具（搜索），但往往把房子盖歪了。这篇论文就是告诉大家：别急着把 AI 推上总工程师的位置，路还很长。

任务类型	描述	挑战点
CrossRepo (跨仓库问题修复)	智能体需利用外部仓库的代码或解决方案来修复目标仓库的问题。	跨仓库推理、外部链接相关性判断。
DomainFix (领域特定问题修复)	解决需要特定领域专业知识（如生物信息学、量子物理、凸优化）的问题。	结合代码操作与科学推理，超越通用编程知识。
DepMigrate (依赖驱动迁移)	应对上游依赖（如 NumPy 1.x 到 2.x, Pydantic v1 到 v2）的破坏性更新，进行全代码库迁移。	大规模代码重构、API 变更映射、系统性修改。
Doc2Repo (文档到仓库生成)	仅根据自然语言规范文档，从零构建一个功能完整的代码仓库。	架构设计、模块划分、全系统一致性生成。

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

1. 背景：以前的考试太“温室”了

2. 新考场：BeyondSWE（超越单一仓库的基准）

3. 考试成绩：惨不忍睹

4. 新工具：SearchSWE（给 AI 配个“搜索引擎”）

5. 总结与启示

BeyondSWE: 当前代码智能体能否超越单仓库 Bug 修复？

技术论文详细总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 BeyondSWE 基准 (BeyondSWE Benchmark)

2.2 SearchSWE 框架 (SearchSWE Framework)

3. 关键实验结果 (Key Results)

3.1 能力差距显著 (Significant Capability Gap)

3.2 搜索与编码的脱节 (Search-Code Disconnect)

3.3 行为分析

4. 主要贡献 (Key Contributions)

5. 意义与影响 (Significance)

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

1. 背景：以前的考试太“温室”了

2. 新考场：BeyondSWE（超越单一仓库的基准）

3. 考试成绩：惨不忍睹

4. 新工具：SearchSWE（给 AI 配个“搜索引擎”）

5. 总结与启示

BeyondSWE: 当前代码智能体能否超越单仓库 Bug 修复？

技术论文详细总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 BeyondSWE 基准 (BeyondSWE Benchmark)

2.2 SearchSWE 框架 (SearchSWE Framework)

3. 关键实验结果 (Key Results)

3.1 能力差距显著 (Significant Capability Gap)

3.2 搜索与编码的脱节 (Search-Code Disconnect)

3.3 行为分析

4. 主要贡献 (Key Contributions)

5. 意义与影响 (Significance)

类似论文

QA-Dragon: Query-Aware Dynamic RAG System for Knowledge-Intensive Visual Question Answering

OraPO: Oracle-educated Reinforcement Learning for Data-efficient and Factual Radiology Report Generation

Stop Before You Fail: Operational Capability Boundaries for Mitigating Unproductive Reasoning in Large Reasoning Models

Seeing Straight: Document Orientation Detection for Efficient OCR

On the Existence and Behavior of Secondary Attention Sinks