Behaviour Driven Development Scenario Generation with Large Language Models

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在探索如何用“超级 AI 助手”来帮人类写“测试剧本”。

为了让你轻松理解，我们可以把软件开发想象成开一家新餐厅，而这篇论文研究的就是如何训练 AI 厨师，让它能自动写出完美的“试菜菜单”（也就是 BDD 场景）。

1. 背景：为什么需要这个？

想象一下，你开了一家新餐厅（软件产品）。在正式开业前，你需要确保每一道菜（功能）都符合顾客（用户）的期待，并且味道完美。

传统做法：你需要请一位经验丰富的“试菜员”（测试专家），他得仔细阅读老板（产品经理）写的“我想做一道辣子鸡”的便条，然后凭经验想象这道菜可能出现的各种情况：太辣了怎么办？鸡肉没熟怎么办？客人对花生过敏怎么办？
痛点：这位试菜员非常忙，写这些“试菜剧本”很花时间，而且容易漏掉一些奇怪的边缘情况（比如：如果客人一边吃辣子鸡一边喝冰可乐会怎样？）。

BDD（行为驱动开发） 就是让老板和试菜员用一种大家都听得懂的“大白话”来写剧本，确保大家理解一致。但写这些剧本太累了。

这篇论文想解决的问题：能不能让 AI（大语言模型） 来帮试菜员写这些剧本？如果 AI 能写，它写得怎么样？怎么让它写得更好？

2. 他们做了什么？（实验过程）

研究者就像一群“美食评审团”，他们做了三件大事：

收集素材（造数据集）：
他们从一家真实的软件公司（IntelligenceBank）里，收集了 500 份 真实的“老板需求便条”（用户故事）和详细的“菜谱说明”（需求描述），以及人类专家写的“完美试菜剧本”（BDD 场景）。这就像收集了 500 道真实菜品的标准答案。
请了三位“明星 AI 厨师”来比赛：
他们邀请了当时最厉害的三个 AI 模型：GPT-4、Claude 3 和 Gemini。
- 任务：给它们看“老板的便条”和“菜谱说明”，让它们自动生成“试菜剧本”。
打分环节（多维度评估）：
怎么知道 AI 写得好不好？他们用了四种方法：
- 文字相似度：像查重一样，看 AI 写的剧本和人类写的剧本有多少字是一样的。（但这招不太准，因为意思一样但措辞不同也算好）。
- 语义相似度：像理解意思一样，看 AI 是否懂了“辣子鸡”就是“辣子鸡”，不管它叫不叫这个名字。
- AI 互评：让另一个更聪明的 AI（DeepSeek）来当评委，给这三个厨师的剧本打分。
- 人类专家打分：请了 6 位真正的资深试菜员（QA 专家）来亲自品尝（阅读）剧本，给出最终评价。

3. 发现了什么？（核心结论）

🏆 谁写得最好？

GPT-4：像个“文字大师”，它写的剧本在字面上和人类写的非常像（文字相似度最高）。
Claude 3：像个“懂业务的专家”，虽然字面上不像 GPT-4 那么像，但人类专家和AI 评委都觉得它写的剧本质量最高、最靠谱，最符合实际业务逻辑。
Gemini：表现也不错，但稍微差点意思。

比喻：GPT-4 像是个背课文很厉害的学生，写出来的文章辞藻华丽；而 Claude 3 像是个有实战经验的厨师，写出来的菜谱虽然词没那么花哨，但真正下锅做的时候最顺手、最不容易出错。

🧠 怎么提问（提示词）效果最好？

给 AI 下指令的方式（Prompt）很重要，而且每个 AI 的“脾气”不一样：

GPT-4：喜欢直接给指令（零样本）。你直接说“写个剧本”，它就能写好，不需要你给例子。
Claude 3：喜欢边想边写（思维链）。你让它先分析步骤，再写剧本，它写得更好。
Gemini：喜欢看例子（少样本）。你给它看两个别人写好的剧本当参考，它就能模仿得最好。

比喻：这就好比教人做菜。GPT-4 是天才，你给个题目它就能做；Claude 3 需要你先教它“先切菜再炒菜”的逻辑；Gemini 则是需要你先给它看两个视频，它照着学才做得好。

📝 给什么材料（输入）最重要？

这是最惊人的发现：输入的质量决定了输出的质量。

如果只给“我想做辣子鸡”（用户故事）：AI 写出来的剧本很烂，漏掉很多细节。
如果给“辣子鸡要辣、要脆、鸡肉要嫩、不能太老”（详细需求描述）：哪怕没有“辣子鸡”这个标题，AI 也能写出完美的剧本！
结论：如果你只给 AI 模糊的想法，它只能瞎编；如果你给 AI 详细的说明书，它就能写出大师级的剧本。

⚙️ 怎么设置参数？

AI 有个“随机性”开关（Temperature）。

结论：把随机性关掉（Temperature = 0），让 AI 每次都说最确定的话，写出来的剧本质量最高。
比喻：写测试剧本需要严谨，不需要“灵感迸发”或“天马行空”。就像盖房子，你需要的是标准的砖块，而不是偶尔变形的艺术砖。

4. 这篇论文有什么用？

省时间：以后写测试剧本，可以先让 AI 写个初稿，人类专家只需要修改一下，效率翻倍。
省钱：发现 DeepSeek 这个 AI 当评委，和人类专家的意见最接近。以后大规模测试时，可以用 AI 先筛一遍，只有拿不准的才让人看。
新规范：告诉公司，如果想用 AI 写测试，必须把需求描述写得非常详细。如果只写一句“我要个功能”，AI 是帮不上忙的。

总结

这篇论文告诉我们：AI 已经能帮我们要写“测试剧本”了，而且写得相当不错（尤其是 Claude 3）。 但要想让它发挥最大威力，我们需要：

选对 AI（Claude 3 或 GPT-4）。
用对方法（根据 AI 的脾气给指令）。
最重要的是，把需求描述写得清清楚楚、明明白白。

这就好比，你给一个超级厨师（AI）最好的食材（详细需求）和正确的菜谱指令，他就能为你端出完美的菜肴（高质量测试场景）。

Behaviour Driven Development Scenario Generation with Large Language Models

1. 背景：为什么需要这个？

2. 他们做了什么？（实验过程）

3. 发现了什么？（核心结论）

🏆 谁写得最好？

🧠 怎么提问（提示词）效果最好？

📝 给什么材料（输入）最重要？

⚙️ 怎么设置参数？

4. 这篇论文有什么用？

总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

3. 主要发现与结果 (Key Results)

3.1 模型有效性 (RQ1)

3.2 提示技术的影响 (RQ2)

3.3 输入类型的影响 (RQ3)

3.4 模型参数设置 (RQ4)

4. 关键贡献 (Key Contributions)

5. 意义与启示 (Significance)

Behaviour Driven Development Scenario Generation with Large Language Models

1. 背景：为什么需要这个？

2. 他们做了什么？（实验过程）

3. 发现了什么？（核心结论）

🏆 谁写得最好？

🧠 怎么提问（提示词）效果最好？

📝 给什么材料（输入）最重要？

⚙️ 怎么设置参数？

4. 这篇论文有什么用？

总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

3. 主要发现与结果 (Key Results)

3.1 模型有效性 (RQ1)

3.2 提示技术的影响 (RQ2)

3.3 输入类型的影响 (RQ3)

3.4 模型参数设置 (RQ4)

4. 关键贡献 (Key Contributions)

5. 意义与启示 (Significance)

类似论文

Keep Ballots Secret: On the Futility of Social Learning in Decision Making by Voting

Social Teaching: Being Informative vs. Being Right in Sequential Decision Making

Beyond Binomial and Negative Binomial: Adaptation in Bernoulli Parameter Estimation

Homotopy type theory as a language for diagrams of ∞\infty∞-logoses

One is all you need: Second-order Unification without First-order Variables

Homotopy type theory as a language for diagrams of $\infty$ -logoses