Can ChatGPT Generate Realistic Synthetic System Requirement Specifications? Results of a Case Study

该研究通过提示工程、多模型交叉验证及专家评估,证实了 ChatGPT 虽能在一定程度上生成逼真的合成系统需求规格说明书,但仍存在矛盾与缺陷,且其自动质量评估无法完全替代专家人工评审。

Alex R. Mattukat, Florian M. Braun, Horst Lichter

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常有趣的问题:AI(特别是像 ChatGPT 这样的聊天机器人)能不能在没有人类专家指导、也没有真实数据参考的情况下,自己“编”出一套看起来非常真实的软件需求说明书?

为了让你更容易理解,我们可以把这篇研究想象成一场**“顶级厨师的盲测挑战”**。

1. 背景:为什么我们需要“假”菜谱?

在软件开发的世界里,系统需求说明书(SyRS)就像是餐厅的“终极菜谱”。它详细规定了这道菜(软件)要做什么、不能做什么、用什么食材(功能)、以及烹饪环境(非功能需求,比如速度、安全性)。

  • 问题: 研究人员想研究怎么改进做菜的方法,但他们很难拿到真实的“顶级菜谱”,因为很多大公司的菜谱是机密的,或者太敏感不能公开。
  • 尝试: 于是,研究人员想:能不能让 AI 这个“超级厨师”自己凭空想象,写出一套看起来和真菜谱一模一样的“假菜谱”(合成需求,SSyRS)?这样大家就可以用这些“假菜谱”做实验了。

2. 挑战:AI 是个“自信过头的骗子”

AI 确实很擅长说话,但它有两个坏毛病:

  1. 幻觉(Hallucination): 它经常一本正经地胡说八道,编造不存在的细节。
  2. 过度自信(Overconfidence): 即使它编错了,它也会用非常肯定、专业的语气说出来,让你觉得“哇,这肯定是真的”。

这就好比一个厨师,明明没做过这道菜,却自信满满地告诉你:“这道菜必须用火星上的辣椒,而且必须在零下 100 度烹饪。”如果你不仔细检查,可能真就信了。

3. 实验过程:如何训练 AI 厨师?

研究团队(来自德国亚琛大学)决定试一试。他们没给 AI 任何真实的菜谱,也没找人类专家帮忙,只给了它一个**“菜单模板”**(就像给厨师一个空白的表格,告诉它要填哪些栏目)。

  • 步骤一: 他们让 AI 在 10 个不同的行业(如电商、医疗、物流等)里,各生成 3 份“假菜谱”。
  • 步骤二: 他们设计了一套**“自我检查机制”**。让 AI 自己当评委,检查自己写的菜谱是否完整、是否像真的。
  • 步骤三: 他们反复调整给 AI 的指令(就像不断给厨师提建议:“别编得太离谱”、“细节要具体”),一共进行了 10 轮迭代。
  • 成果: 最终,他们成功生成了 300 份 看起来像模像样的“假菜谱”。

4. 大考:人类专家来尝菜

光有 AI 自己夸自己不行,得请真正的**“美食评论家”**(软件行业的资深专家)来尝尝。

  • 测试方法: 他们邀请了 83 位专家,每人看一份“假菜谱”,然后打分:这看起来是真的吗?
  • 结果(表面): 62% 的专家觉得这些“假菜谱”挺真实的! 甚至有人觉得“非常真实”。这说明 AI 确实能模仿出那种“专业范儿”。
  • 结果(深层): 但是,如果专家仔细读,就会发现很多破绽:
    • 逻辑不通: 前面说要在火星种菜,后面又说要在地球卖。
    • 细节模糊: 全是“大词”和“行话”,但缺乏实际可操作的具体数字。
    • 过于理想化: 比如要求“系统必须在 1 毫秒内处理 100 亿次请求”,这在现实中几乎不可能。

5. 核心发现:AI 能“形似”,但难“神似”

研究得出了几个非常有趣的结论,我们可以用比喻来总结:

  • 结论一:AI 是个优秀的“模仿者”,但不是“创造者”。
    如果你只是看个大概,AI 写的东西结构完美、用词专业,看起来和真的一模一样。它非常擅长“画皮”。
  • 结论二:AI 自己当裁判不可靠。
    研究团队发现,让 AI 给自己打分(比如“真实度 0.9 分”)是非常不靠谱的。不同的 AI 模型打分天差地别,有的给 0.9,有的给 0.4。这就像让一个刚入行的厨师自己给自己评米其林星级,水分太大了。
  • 结论三:人类专家的眼睛是雪亮的(但容易受骗)。
    虽然 60% 的专家觉得“看起来像真的”,但那些仔细推敲的专家发现了很多逻辑漏洞。这说明,AI 生成的文档可以作为“草稿”或“起点”,但绝不能直接拿来用,必须经过人类专家的严格审查和修改。

6. 总结:这盘菜能吃吗?

能吃,但不能直接端上桌。

这篇论文告诉我们:

  • 好消息: ChatGPT 确实能帮我们生成大量看起来很像真的软件需求文档,解决了“没数据做研究”的难题。
  • 坏消息: 这些文档里藏着很多“毒蘑菇”(错误的逻辑和幻觉),而且 AI 自己还发现不了。
  • 最终建议: 我们可以用 AI 来快速生成初稿,节省时间,但绝对不能省去人类专家仔细审核这一步。就像你可以用 AI 写个故事大纲,但要想变成一本好书,还得靠人类作家去润色和把关。

一句话总结: AI 能帮你写出“像模像样”的假需求,但它还没学会如何写出“真正靠谱”的需求。人类专家依然是不可或缺的“守门员”。