Can ChatGPT Generate Realistic Synthetic System Requirement Specifications? Results of a Case Study

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常有趣的问题：AI（特别是像 ChatGPT 这样的聊天机器人）能不能在没有人类专家指导、也没有真实数据参考的情况下，自己“编”出一套看起来非常真实的软件需求说明书？

为了让你更容易理解，我们可以把这篇研究想象成一场**“顶级厨师的盲测挑战”**。

1. 背景：为什么我们需要“假”菜谱？

在软件开发的世界里，系统需求说明书（SyRS）就像是餐厅的“终极菜谱”。它详细规定了这道菜（软件）要做什么、不能做什么、用什么食材（功能）、以及烹饪环境（非功能需求，比如速度、安全性）。

问题： 研究人员想研究怎么改进做菜的方法，但他们很难拿到真实的“顶级菜谱”，因为很多大公司的菜谱是机密的，或者太敏感不能公开。
尝试： 于是，研究人员想：能不能让 AI 这个“超级厨师”自己凭空想象，写出一套看起来和真菜谱一模一样的“假菜谱”（合成需求，SSyRS）？这样大家就可以用这些“假菜谱”做实验了。

2. 挑战：AI 是个“自信过头的骗子”

AI 确实很擅长说话，但它有两个坏毛病：

幻觉（Hallucination）： 它经常一本正经地胡说八道，编造不存在的细节。
过度自信（Overconfidence）： 即使它编错了，它也会用非常肯定、专业的语气说出来，让你觉得“哇，这肯定是真的”。

这就好比一个厨师，明明没做过这道菜，却自信满满地告诉你：“这道菜必须用火星上的辣椒，而且必须在零下 100 度烹饪。”如果你不仔细检查，可能真就信了。

3. 实验过程：如何训练 AI 厨师？

研究团队（来自德国亚琛大学）决定试一试。他们没给 AI 任何真实的菜谱，也没找人类专家帮忙，只给了它一个**“菜单模板”**（就像给厨师一个空白的表格，告诉它要填哪些栏目）。

步骤一： 他们让 AI 在 10 个不同的行业（如电商、医疗、物流等）里，各生成 3 份“假菜谱”。
步骤二： 他们设计了一套**“自我检查机制”**。让 AI 自己当评委，检查自己写的菜谱是否完整、是否像真的。
步骤三： 他们反复调整给 AI 的指令（就像不断给厨师提建议：“别编得太离谱”、“细节要具体”），一共进行了 10 轮迭代。
成果： 最终，他们成功生成了 300 份 看起来像模像样的“假菜谱”。

4. 大考：人类专家来尝菜

光有 AI 自己夸自己不行，得请真正的**“美食评论家”**（软件行业的资深专家）来尝尝。

测试方法： 他们邀请了 83 位专家，每人看一份“假菜谱”，然后打分：这看起来是真的吗？
结果（表面）： 62% 的专家觉得这些“假菜谱”挺真实的！ 甚至有人觉得“非常真实”。这说明 AI 确实能模仿出那种“专业范儿”。
结果（深层）： 但是，如果专家仔细读，就会发现很多破绽：
- 逻辑不通： 前面说要在火星种菜，后面又说要在地球卖。
- 细节模糊： 全是“大词”和“行话”，但缺乏实际可操作的具体数字。
- 过于理想化： 比如要求“系统必须在 1 毫秒内处理 100 亿次请求”，这在现实中几乎不可能。

5. 核心发现：AI 能“形似”，但难“神似”

研究得出了几个非常有趣的结论，我们可以用比喻来总结：

结论一：AI 是个优秀的“模仿者”，但不是“创造者”。
如果你只是看个大概，AI 写的东西结构完美、用词专业，看起来和真的一模一样。它非常擅长“画皮”。
结论二：AI 自己当裁判不可靠。
研究团队发现，让 AI 给自己打分（比如“真实度 0.9 分”）是非常不靠谱的。不同的 AI 模型打分天差地别，有的给 0.9，有的给 0.4。这就像让一个刚入行的厨师自己给自己评米其林星级，水分太大了。
结论三：人类专家的眼睛是雪亮的（但容易受骗）。
虽然 60% 的专家觉得“看起来像真的”，但那些仔细推敲的专家发现了很多逻辑漏洞。这说明，AI 生成的文档可以作为“草稿”或“起点”，但绝不能直接拿来用，必须经过人类专家的严格审查和修改。

6. 总结：这盘菜能吃吗？

能吃，但不能直接端上桌。

这篇论文告诉我们：

好消息： ChatGPT 确实能帮我们生成大量看起来很像真的软件需求文档，解决了“没数据做研究”的难题。
坏消息： 这些文档里藏着很多“毒蘑菇”（错误的逻辑和幻觉），而且 AI 自己还发现不了。
最终建议： 我们可以用 AI 来快速生成初稿，节省时间，但绝对不能省去人类专家仔细审核这一步。就像你可以用 AI 写个故事大纲，但要想变成一本好书，还得靠人类作家去润色和把关。

一句话总结： AI 能帮你写出“像模像样”的假需求，但它还没学会如何写出“真正靠谱”的需求。人类专家依然是不可或缺的“守门员”。

Can ChatGPT Generate Realistic Synthetic System Requirement Specifications? Results of a Case Study

1. 背景：为什么我们需要“假”菜谱？

2. 挑战：AI 是个“自信过头的骗子”

3. 实验过程：如何训练 AI 厨师？

4. 大考：人类专家来尝菜

5. 核心发现：AI 能“形似”，但难“神似”

6. 总结：这盘菜能吃吗？

1. 研究背景与问题 (Problem)

2. 研究方法 (Methodology)

2.1 生成与评估流程

2.2 专家验证研究

3. 关键贡献 (Key Contributions)

4. 研究结果 (Results)

4.1 生成质量统计

4.2 专家评估结果

5. 讨论与意义 (Discussion & Significance)

5.1 核心洞察

5.2 研究意义

总结

Can ChatGPT Generate Realistic Synthetic System Requirement Specifications? Results of a Case Study

1. 背景：为什么我们需要“假”菜谱？

2. 挑战：AI 是个“自信过头的骗子”

3. 实验过程：如何训练 AI 厨师？

4. 大考：人类专家来尝菜

5. 核心发现：AI 能“形似”，但难“神似”

6. 总结：这盘菜能吃吗？

1. 研究背景与问题 (Problem)

2. 研究方法 (Methodology)

2.1 生成与评估流程

2.2 专家验证研究

3. 关键贡献 (Key Contributions)

4. 研究结果 (Results)

4.1 生成质量统计

4.2 专家评估结果

5. 讨论与意义 (Discussion & Significance)

5.1 核心洞察

5.2 研究意义

总结

类似论文

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities