SWE-QA-Pro: A Representative Benchmark and Scalable Training Recipe for Repository-Level Code Understanding

Songcheng Cai, Zhiheng Lyu, Yuansheng Ni, Xiangchao Chen, Baichuan Zhou, Shenzhe Zhu, Yi Lu, Haozhe Wang, Chi Ruan, Benjamin Schneider, Weixu Zhang, Xiang Li, Andy Zheng, Yuyu Zhang, Ping Nie, Wenhu C

发布于 2026-03-18

📖 1 分钟阅读☕ 轻松阅读

查看于 arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 SWE-QA-Pro 的新项目，它包含两大部分：一个**“超级严格的考试”（基准测试）和一套“高效的训练食谱”**（训练方法）。

为了让你更容易理解，我们可以把大语言模型（LLM）想象成一个刚毕业的计算机系天才学生，而软件仓库（Repository）就是一座巨大的、充满各种文档和代码的图书馆。

以下是这篇论文的通俗解读：

1. 现有的问题：学生只会“背书”，不会“查书”

以前的考试（基准测试）有个大毛病：

题目太简单或太老： 很多题目学生以前在课本（预训练数据）里背过，根本不需要去图书馆里翻书就能答对。
只考片段： 以前的考试只给一小段代码，学生只要认得几个单词就能猜出答案。
结果： 我们以为学生很聪明，其实他只是死记硬背。一旦让他去一座陌生的、巨大的图书馆里找具体的文件、理清复杂的逻辑，他就抓瞎了。

2. 新方案：SWE-QA-Pro（超级严格的考试）

作者们设计了一套全新的考试，专门为了测试学生是否真的具备“进图书馆查资料”的能力。

选“冷门”图书馆： 他们不选那些大家都背得滚瓜烂熟的热门图书馆（如著名的开源项目），而是专门挑那些冷门、长尾、没人背过的图书馆。这样学生就不能靠“背书”作弊了。
必须“实地勘探”： 题目设计成必须要在图书馆里跑几圈、翻几个文件、看看文件之间的引用关系才能回答。
- 比喻： 以前的题目是“苹果是什么颜色的？”（学生背过是红的）；现在的题目是“请找出这座图书馆里，关于‘如何把红苹果运到南极’的第三版说明书，并解释为什么它和第一版不一样。”
难度过滤（去水题）： 如果一道题，学生不查书、只靠脑子想就能答对，这道题就直接作废。只有那些必须查书才能答对的题，才保留在试卷上。
可执行环境： 每个图书馆都是“活”的，学生可以在里面运行代码，确保题目不是瞎编的。

结果证明： 在这种新考试下，那些只会“死记硬背”的模型（直接回答模式）分数很低，而学会了“进图书馆查资料”的智能体（Agent） 分数飙升。这证明了“查资料”的能力才是关键。

3. 训练食谱：如何把普通学生培养成“图书馆侦探”？

既然考试变难了，怎么训练学生呢？作者提出了一套**“两步走”的训练食谱**，专门用来训练那些参数较小、开源的模型（比如 Qwen3-8B）。

第一步： supervised Fine-Tuning (SFT) —— 手把手教规矩
- 先给学生看 1000 个“优秀侦探”的解题案例。
- 教他们：遇到不懂的，不要瞎编，要懂得使用工具（比如“搜索文件”、“查看代码”、“运行命令”）。
- 比喻： 就像给实习生发一本《图书馆寻宝指南》，告诉他：“看到这个问题，先去 A 区找 B 文件，再对比 C 文件。”
第二步：RLAIF (AI 反馈强化学习) —— 实战演练与奖惩
- 这是最关键的一步。让学生自己去解题，然后由一个**“超级 AI 考官”**来打分。
- 考官不看答案通不通顺，只看：你有没有真的去查了文件？你的证据确凿吗？逻辑对吗？
- 如果学生瞎编，扣分；如果学生精准找到了文件并引用了行号，给高分。
- 通过这种不断的“试错 - 奖励”，学生学会了如何高效地利用工具，而不是盲目地调用工具。

4. 惊人的成果

这套方法效果立竿见影：

一个只有 80 亿参数 的小模型（Qwen3-8B），经过这套“食谱”训练后，在 SWE-QA-Pro 考试中的表现，竟然超过了目前业界最强的 GPT-4o（一个巨大的商业模型）。
它甚至缩小了与最顶尖的私有模型（如 Claude Sonnet 4.5）的差距。

总结

这篇论文的核心思想就是：
不要让学生靠“背答案”来通过考试，要逼着他们学会“查资料”和“做研究”。

通过建立一个无法靠死记硬背通过的考试（SWE-QA-Pro），配合一套强调“实地查证”的训练方法（SFT + RLAIF），我们成功地把一个小模型训练成了能够深入理解复杂代码库的“专家”。这标志着 AI 在软件工程领域，从“只会聊天”向“真正干活”迈出了重要一步。

SWE-QA-Pro: A Representative Benchmark and Scalable Training Recipe for Repository-Level Code Understanding

1. 现有的问题：学生只会“背书”，不会“查书”

2. 新方案：SWE-QA-Pro（超级严格的考试）

3. 训练食谱：如何把普通学生培养成“图书馆侦探”？

4. 惊人的成果

总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

A. SWE-QA-Pro 基准构建 (Benchmark Construction)

B. 智能体工作流与训练配方 (Agent Workflow & Training Recipe)

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与结论 (Significance)

SWE-QA-Pro: A Representative Benchmark and Scalable Training Recipe for Repository-Level Code Understanding

1. 现有的问题：学生只会“背书”，不会“查书”

2. 新方案：SWE-QA-Pro（超级严格的考试）

3. 训练食谱：如何把普通学生培养成“图书馆侦探”？

4. 惊人的成果

总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

A. SWE-QA-Pro 基准构建 (Benchmark Construction)

B. 智能体工作流与训练配方 (Agent Workflow & Training Recipe)

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与结论 (Significance)

类似论文

Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling

WorkRB: A Community-Driven Evaluation Framework for AI in the Work Domain

Text-as-Signal: Quantitative Semantic Scoring with Embeddings, Logprobs, and Noise Reduction

A Multi-Model Approach to English-Bangla Sentiment Classification of Government Mobile Banking App Reviews

KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context