OODEval: Evaluating Large Language Models on Object-Oriented Design

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给人工智能（AI）上“软件设计”这门课进行期末考试。

以前，大家主要看 AI 能不能写出没有语法错误的代码（就像看学生能不能把字写对）。但这篇论文发现，AI 在更高级的**“面向对象设计”（OOD）**任务上表现如何，大家还不太清楚。这就好比：AI 可能能把每个单词拼对，但能不能写出一篇逻辑通顺、结构合理的文章，还是个未知数。

为了解决这个问题，西北工业大学等机构的研究团队搞了一套全新的“考试系统”，我们把它拆解成几个有趣的部分来理解：

1. 出题：OODEval（一套全新的考卷）

以前没有标准的考卷，有的题目太简单，有的甚至没有答案。

新考卷（OODEval）： 研究人员手动收集了 50 道 从简单到困难的“软件设计题”。
- 简单题： 就像让 AI 设计一个“图书馆借书系统”的基础架子。
- 困难题： 就像设计一个复杂的“大型电商平台”，需要处理成千上万种商品、用户和订单的复杂关系。
- 格式： 题目是自然语言描述（人话），标准答案是 UML 类图（一种软件设计的蓝图，像建筑图纸一样）。

2. 找“监考老师”和“参考分”：OODEval-Human

怎么知道 AI 考得好不好？需要有人来打分。

人类考生： 研究人员收集了 940 份 大学生交上来的作业，并且有老师给这些作业打了分。
作用：
1. 比高低： 看看 AI 是比大学生强，还是比大学生笨。
2. 校准尺子： 用来验证他们新发明的“自动打分器”准不准。

3. 新尺子：CLUE（一把智能的“自动评分尺”）

以前给软件设计图打分，要么靠人眼（太慢），要么靠简单的文字比对（太傻，比如把“用户”写成“顾客”就判错，虽然意思一样）。

CLUE 尺子： 这是一个全新的自动评分系统。它不仅能看字面意思，还能理解“灵魂”。
- 它知道“用户”和“顾客”在软件设计里可能是一回事。
- 它能检查：类（Class）对不对？属性（Attribute）全不全？方法（Method）有没有漏？关系（Relationship，比如谁继承谁）连得对不对？
- 效果： 经过测试，这把尺子打出来的分数，和人类老师打的分数高度一致，非常靠谱。

4. 考试结果：29 位 AI 考生的表现

研究人员让 29 种 不同的 AI 模型（包括 GPT-4, Llama, Qwen, DeepSeek 等）来做这套题，结果很有意思：

现象一：字写得对，但逻辑不通。
- AI 生成的代码格式（语法）几乎全对（就像字都写对了）。
- 但是，核心逻辑（语义）经常出错。特别是设计“方法”（具体怎么操作）和“关系”（模块之间怎么连接）时，AI 经常犯迷糊。
- 比喻： AI 能写出完美的句子，但写不出有深度的文章。
现象二：AI vs. 大学生。
- 平均水平： 顶尖的 AI 模型（如 Qwen3-Coder-30B）的表现，差不多能赶上普通大学生的平均水平。
- 顶尖水平： 但是，AI 离最优秀的人类专家还有很大差距。就像 AI 能考个 80 分，但人类学霸能考 99 分。
现象三：谁考得最好？
- 本地小钢炮： 一个叫 Qwen3-Coder-30B 的模型表现最稳，不仅分数高，而且很少犯奇怪的错误。
- 小个子大能量： 一个叫 Gemma3-4B-IT 的小模型（参数很少），居然打败了 GPT-4o-mini 这种大模型，说明小模型在特定领域也能很厉害。
- 推理模型？ 那些号称有“深度推理”能力的模型，在这次考试中并没有表现出明显的优势，甚至有的还不如普通模型。

5. 为什么 AI 会挂科？（失败模式分析）

研究发现 AI 最容易犯的错误有：

漏题： 该有的类或方法直接漏了。
乱连： 把两个不相关的东西强行连在一起（比如把“苹果”和“汽车”连成继承关系）。
幻觉： 自己瞎编了一些题目里没要求的复杂功能。

6. 这对我们意味着什么？（启示）

对开发者： 如果你想用 AI 做软件设计，不要全信它。它现在只能帮你画个大概的草图，具体的逻辑细节还得靠人来把关。选模型时，Qwen3-Coder 或 DeepSeek 系列目前比较靠谱。
对学生/老师： 这是一个警钟！现在的 AI 已经能帮大学生写出像样的作业了。老师以后不能只收“最终作业”，得让学生现场讲解设计思路，或者增加过程考核，防止学生用 AI 作弊。
对未来的研究： 现在的考题还是太简单了。未来的考题得增加难度，比如增加更多的类、更复杂的关系，逼着 AI 去进化。

总结

这篇论文就像给 AI 软件设计能力做了一次全面的“体检”。
结论是：AI 已经是个不错的“初级绘图员”，能帮人类分担基础工作，但离成为“资深架构师”还有很长的路要走。 它写得很快、格式很对，但在理解复杂逻辑和创造性设计上，还需要人类老师（专家）的指导和监督。

OODEval: Evaluating Large Language Models on Object-Oriented Design

1. 出题：OODEval（一套全新的考卷）

2. 找“监考老师”和“参考分”：OODEval-Human

3. 新尺子：CLUE（一把智能的“自动评分尺”）

4. 考试结果：29 位 AI 考生的表现

5. 为什么 AI 会挂科？（失败模式分析）

6. 这对我们意味着什么？（启示）

总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 新基准数据集 (New Benchmarks)

2.2 新评估指标 (CLUE Metrics)

2.3 实证研究 (Empirical Study)

3. 关键贡献 (Key Contributions)

4. 主要结果 (Results)

4.1 整体性能 (RQ1)

4.2 与人类对比 (RQ2)

4.3 模型维度分析 (RQ3)

4.4 任务特征分析 (RQ4)

4.5 失败模式分析 (RQ5)

5. 意义与启示 (Significance & Implications)

总结

OODEval: Evaluating Large Language Models on Object-Oriented Design

1. 出题：OODEval（一套全新的考卷）

2. 找“监考老师”和“参考分”：OODEval-Human

3. 新尺子：CLUE（一把智能的“自动评分尺”）

4. 考试结果：29 位 AI 考生的表现

5. 为什么 AI 会挂科？（失败模式分析）

6. 这对我们意味着什么？（启示）

总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 新基准数据集 (New Benchmarks)

2.2 新评估指标 (CLUE Metrics)

2.3 实证研究 (Empirical Study)

3. 关键贡献 (Key Contributions)

4. 主要结果 (Results)

4.1 整体性能 (RQ1)

4.2 与人类对比 (RQ2)

4.3 模型维度分析 (RQ3)

4.4 任务特征分析 (RQ4)

4.5 失败模式分析 (RQ5)

5. 意义与启示 (Significance & Implications)

总结

类似论文

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities