Software Development Life Cycle Perspective: A Survey of Benchmarks for Code Large Language Models and Agents

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一份**“软件工程师的体检报告”，但它检查的不是医生，而是AI 写代码的能力**。

想象一下，现在的 AI（比如 GitHub Copilot 或 Cursor）就像是一个刚毕业的、天赋异禀的“超级实习生”。它能写代码、能改 Bug，甚至能帮你做设计。但是，我们怎么知道它到底是不是真的“全能”？还是说它只是擅长做某几道题的“偏科生”？

这篇论文的作者们做了一件大事：他们收集了178 个用来测试 AI 写代码能力的“考卷”（Benchmark），然后从**软件开发的全生命周期（SDLC）**这个角度，给这些考卷做了一次大体检。

以下是用大白话和比喻为你解读的核心发现：

1. 核心发现：严重的“偏科”现象

如果把软件开发比作盖一栋摩天大楼，整个过程应该包括：

需求分析（业主想要什么样的房子？）
设计（画图纸，决定结构）
施工（砌砖、浇筑，写代码）
质检（检查有没有裂缝，有没有漏洞）
维护（以后漏水了怎么修，怎么扩建）

这篇论文发现，现在的 AI 考试太“偏科”了：

61% 的考题都在考“施工”（写代码）： 就像只考实习生“能不能把砖砌直”，而完全不管他能不能看懂业主的需求，或者能不能画出合理的图纸。
需求分析（5%）和设计（3%）几乎被忽略： 这意味着我们不知道 AI 能不能理解“我要一个带落地窗的豪华客厅”这种模糊的需求，也不知道它能不能设计出稳固的承重结构。
结论： 我们现在的 AI 可能只是个**“熟练的砌砖工”，但离真正的“全能建筑师”**还差得远。

2. 考卷的“作弊”风险（数据污染）

想象一下，如果老师出题，结果题目本身就在学生以前看过的教科书里出现过，那学生考高分是因为真的学会了，还是因为背过答案？

现状： 很多测试 AI 的“考卷”（数据集）太老了，或者太公开了。现在的 AI 模型在训练时，很可能已经把这些“考题”和“答案”都背下来了。
后果： AI 在测试中表现很好，可能只是因为它在“作弊”（死记硬背），而不是真的学会了写代码。
比喻： 就像让一个学生做数学题，但他之前已经看过这道题的答案了，所以考满分也不代表他数学好。

3. 考试形式太“死板”

现在的考试大多是**“一问一答”**模式：

老师问： “写一个排序函数。”
学生答： 给出代码。
结束。

但在真实的软件开发中，工作往往是**“多轮对话”和“动手操作”**：

真实场景： 老板说“改一下”，AI 改了，老板说“不对，再改”，AI 再改，甚至 AI 需要自己去查文档、运行代码看报错、再修复。
问题： 现在的考试很少模拟这种**“交互式”**的复杂工作流，导致我们不知道 AI 能不能处理真实的、 messy（乱糟糟）的工程问题。

4. 语言“偏食”

Python 是“宠儿”： 绝大多数考题都是 Python 语言的。
其他语言是“弃儿”： 像 Rust、Go 这些现代、高性能的语言，考题非常少。
比喻： 就像只教 AI 说英语，然后问它：“你会说中文吗？”或者“你会说法语吗？”我们根本不知道它在其他语言上的能力。

5. 未来的方向：从“做题家”到“工程师”

作者们呼吁，未来的测试不能只盯着“写代码”这一件事，而应该：

补全短板： 多考考“需求分析”和“系统设计”，让 AI 学会怎么当个真正的工程师。
防作弊： 考卷要不断更新，甚至要像“在线考试”一样，实时出题，让 AI 没法背答案。
模拟真实： 考试环境要像真实的办公室，允许 AI 去查资料、运行程序、甚至和人（或模拟用户）互动。
关注隐私： 现在的考试很少考 AI 会不会泄露公司的机密代码，这也是未来需要补上的课。

总结

这篇论文就像是在给 AI 写代码的领域**“敲警钟”**。它告诉我们：别被 AI 在简单题目上的高分骗了。 现在的测试体系太单一、太容易作弊，无法真实反映 AI 在复杂、真实的软件开发中到底能不能用。

我们需要建立一套更公平、更全面、更贴近真实工作的“考试制度”，才能知道 AI 是不是真的能帮人类盖起摩天大楼，而不仅仅是帮人类砌几块砖。

Software Development Life Cycle Perspective: A Survey of Benchmarks for Code Large Language Models and Agents

1. 核心发现：严重的“偏科”现象

2. 考卷的“作弊”风险（数据污染）

3. 考试形式太“死板”

4. 语言“偏食”

5. 未来的方向：从“做题家”到“工程师”

总结

1. 研究问题 (Problem)

2. 方法论 (Methodology)

3. 关键贡献 (Key Contributions)

4. 主要结果与发现 (Results & Findings)

A. 覆盖范围的严重失衡

B. 各阶段的具体发现

C. 通用维度的关键问题

5. 意义与未来方向 (Significance & Future Directions)

意义

未来研究方向

Software Development Life Cycle Perspective: A Survey of Benchmarks for Code Large Language Models and Agents

1. 核心发现：严重的“偏科”现象

2. 考卷的“作弊”风险（数据污染）

3. 考试形式太“死板”

4. 语言“偏食”

5. 未来的方向：从“做题家”到“工程师”

总结

1. 研究问题 (Problem)

2. 方法论 (Methodology)

3. 关键贡献 (Key Contributions)

4. 主要结果与发现 (Results & Findings)

A. 覆盖范围的严重失衡

B. 各阶段的具体发现

C. 通用维度的关键问题

5. 意义与未来方向 (Significance & Future Directions)

意义

未来研究方向

类似论文

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem