BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

本文提出了名为 BeyondSWE 的综合基准测试,揭示了当前代码代理在跨仓库推理、领域问题解决等真实场景中存在显著的能力短板,并进一步通过 SearchSWE 框架验证了单纯引入搜索增强并不能稳定提升代理性能,从而强调了开发类人“搜索 - 推理”工作流的挑战性。

Guoxin Chen, Fanzhe Meng, Jiale Zhao, Minghao Li, Daixuan Cheng, Huatong Song, Jie Chen, Yuzhi Lin, Hui Chen, Xin Zhao, Ruihua Song, Chang Liu, Cheng Chen, Kai Jia, Ji-Rong Wen

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给现在的"AI 程序员”做了一次极其严苛的“越级考试”

简单来说,以前的考试(比如 SWE-bench)只考“在自家院子里修修补补”,而这次考试(BeyondSWE)直接把他们扔到了“整个城市甚至跨国界”的复杂环境中,看他们能不能活下来。

下面我用几个生动的比喻来拆解这篇论文的核心内容:

1. 背景:以前的考试太“温室”了

想象一下,以前的 AI 程序员就像是在幼儿园里学修玩具的孩子。

  • 考试环境:只给一个玩具箱(单个代码仓库),只修一个坏掉的齿轮(单个 Bug)。
  • 现状:这些 AI 在幼儿园里表现很好,能修好 80% 的玩具。
  • 问题:真正的软件开发不是修玩具,而是盖大楼。工程师需要去隔壁工地借图纸(跨仓库)、懂量子物理知识(领域知识)、把旧大楼拆了重建以适应新地基(依赖迁移),甚至完全凭空画图纸盖一栋新楼(文档生成)。

论文的核心问题就是:当把这些"AI 幼儿园毕业生”扔到真正的“建筑工地”时,他们还能干活吗?

2. 新考场:BeyondSWE(超越单一仓库的基准)

作者设计了一个名为 BeyondSWE 的新考场,就像把考试难度从“幼儿园”直接拉到了“世界技能大赛”。这个考场有四个地狱级关卡

  • 关卡一:跨仓库救援 (CrossRepo)

    • 比喻:你的车坏了,但你手里的说明书只有一半。你必须去隔壁邻居的车库,看看他们是怎么修同款车的,然后借鉴他们的方案修好你的车。
    • 挑战:AI 需要知道去哪里找“邻居”,并理解邻居的图纸是否适用于自己。
  • 关卡二:专家级难题 (DomainFix)

    • 比喻:让你修一个核反应堆或者基因编辑仪。你不仅得会拧螺丝,还得懂核物理或生物学。
    • 挑战:普通的编程知识不够用,AI 必须拥有像人类专家那样的“领域知识”。
  • 关卡三:大规模拆迁重建 (DepMigrate)

    • 比喻:政府突然规定所有建筑必须改用“新型抗震材料”(比如 Python 库从 1.0 升级到 2.0)。你不仅要换材料,还要把整栋大楼里几千个房间的结构全部重新调整,不能塌房。
    • 挑战:这是全局性的修改,牵一发而动全身,AI 很容易改错一处导致全盘崩溃。
  • 关卡四:无中生有 (Doc2Repo)

    • 比喻:给你一张手绘的草图(需求文档),让你从零开始盖一栋能住人的大楼,而且不能有任何现成的砖块(没有现有代码)。
    • 挑战:考验 AI 的架构设计能力,而不仅仅是修补能力。

3. 考试成绩:惨不忍睹

当把目前最顶尖的 AI 模型(如 GPT-5, Gemini 3 等)扔进这个考场后,结果很扎心:

  • 及格线都没摸到:即使是最好的模型,通过率也不到 45%
  • 偏科严重:有的模型擅长修小 bug,有的擅长盖楼,但没有一个全能冠军。
  • 结论:现在的 AI 程序员,在“单点修补”上很厉害,但一旦离开舒适区,面对复杂的现实工程,它们就**“水土不服”**了。

4. 新工具:SearchSWE(给 AI 配个“搜索引擎”)

既然 AI 知识不够,作者想:那给它们配个谷歌搜索浏览器,让它们像人类工程师一样,遇到问题先上网查资料,再回来写代码,行不行?

于是他们开发了 SearchSWE 框架。

  • 预期:AI 应该能“边查边写”,像人类一样灵活。
  • 现实翻车了
    • 有时候有用:查到了正确的文档,确实能解决问题。
    • 更多时候是添乱
      1. 信息过载:搜出来一堆过时的、错误的或者不相关的资料,AI 被带偏了。
      2. 版本混乱:网上搜的是“最新版”教程,但你的电脑里装的是“旧版”软件,AI 照着新教程改,结果代码跑不起来。
      3. 噪音干扰:搜出来的信息太杂,AI 反而不知道听谁的,最后写出的代码比不搜还烂。

核心发现:现在的 AI 就像是一个**“只会死记硬背的学生”,突然给了它一本百科全书,它反而不会用,甚至会被书里的错误信息带偏。“会搜索”和“会写代码”这两项能力,在现在的 AI 身上并没有完美融合。**

5. 总结与启示

这篇论文就像是一盆冷水,泼醒了那些认为"AI 已经能完全替代程序员”的幻想。

  • 现状:AI 在简单的、封闭的修 Bug 任务上很强,但在需要跨领域思考、全局架构、查阅外部资料的真实工程场景下,还非常稚嫩。
  • 未来方向:我们需要教 AI 如何像人类专家一样思考——知道什么时候该查资料,什么时候该相信本地代码,如何过滤网上的噪音,以及如何把查到的知识真正转化为代码。

一句话总结
现在的 AI 程序员就像是一个只会做数学题的学霸,让他去修水管、盖房子、甚至设计城市规划,他虽然拿着工具(搜索),但往往把房子盖歪了。这篇论文就是告诉大家:别急着把 AI 推上总工程师的位置,路还很长。