From Law to Gherkin: A Human-Centred Quasi-Experiment on the Quality of LLM-Generated Behavioural Specifications from Food-Safety Regulations

Each language version is independently generated for its own context, not a direct translation.

这篇文章讲述了一个非常有趣且实用的实验：我们能不能让“人工智能（AI）”帮我们把枯燥、难懂的法律条文，翻译成程序员能直接看懂的“操作说明书”？

为了让你轻松理解，我们可以把这项研究想象成**“把复杂的食谱翻译成傻瓜式烹饪指南”**的过程。

1. 背景：为什么我们需要这个？

想象一下，政府发布了一条关于食品安全的法律（比如：“鸡蛋里的细菌不能超过 5 万个”）。

法律的语言：像是一篇严谨的学术论文，充满了“应当”、“不得”、“在……情况下”等词，而且故意不写具体的技术细节，因为法律要管所有情况。
程序员的困境：软件工程师需要写代码来监控鸡蛋。但法律没告诉他们代码具体该怎么写。如果让程序员手动把法律翻译成代码需求，既慢又容易出错。一旦出错，可能导致食品安全事故，后果很严重。

现在的想法：既然现在的 AI（大语言模型，LLM）很聪明，能不能让它直接读法律，然后写出Gherkin？

什么是 Gherkin？ 你可以把它想象成一种**“万能烹饪步骤卡”**。它的格式很简单：
- Given（假如）：假如鸡蛋是液态的……
- When（当）：当我们要检测细菌时……
- Then（那么）：那么细菌数量必须少于 5 万。
  这种格式既像人话，又能让电脑直接执行测试。

2. 实验过程：让 AI 当“翻译官”

研究者找了两个顶尖的 AI 模型（一个是 Claude，一个是 Llama），把它们当成了“翻译官”。

任务：给它们 30 条真实的加拿大食品安全法律条文。
目标：让它们写出对应的"Gherkin 烹饪步骤卡”。
评委：找了 10 位懂软件开发的“美食评论家”（学生和研究者），让他们来给 AI 写的卡片打分。

打分标准（就像评价一道菜）：

相关性：这道菜是不是真的在讲法律里说的事？（没跑题吗？）
清晰度：步骤写得清楚吗？有没有让人看不懂？
完整性：法律里说的所有细节都写进去了吗？有没有漏掉什么配料？
单一性：一张卡片是不是只讲一件事？（比如，不要在一行里既讲“重量”又讲“细菌”，要分开写）。
省时：如果让 AI 写，能帮人类省多少时间？

3. 实验结果：AI 表现如何？

好消息：
AI 的表现非常棒！

评委们给出的分数都很高。绝大多数 AI 生成的卡片都被认为是“完全相关”、“非常清晰”且“能节省大量时间”。
这就好比，AI 作为一个新手厨师，第一次尝试做这道菜，竟然做出了 90% 以上都能直接上桌的成品。
Claude 和 Llama 两个 AI 打平手，没有谁明显比谁强太多。

坏消息（也是最重要的发现）：
虽然 AI 很聪明，但它不能直接用来做饭（不能直接用来写代码），必须有人类大厨在旁边盯着。

漏掉配料（遗漏）：有时候 AI 会漏掉法律里的某个关键数字或条件。比如法律说“细菌不能超过 5 万”，AI 可能只写了“要检测细菌”，忘了写"5 万”这个界限。在食品安全领域，漏掉一个数字就是灾难。
瞎编乱造（幻觉）：有时候 AI 会自己加戏。比如法律只说了要检测细菌，AI 却自己加了一句“如果细菌超标，系统要发出警报并亮红灯”。法律里没说要亮红灯，这是 AI 自己脑补的。
大杂烩（缺乏单一性）：有时候 AI 喜欢把好几个任务塞进一张卡片里，让人看得晕头转向。

4. 核心结论：AI 是“助手”，不是“替身”

这项研究告诉我们：

AI 是个超级高效的“草稿员”。以前人类写这些说明书要花几天，现在 AI 几分钟就能写出 90% 正确的草稿。
但是，人类必须做“最终审核”。特别是在食品安全这种关乎人命的事情上，我们不能完全信任 AI。人类需要检查 AI 有没有漏掉关键信息，有没有瞎编乱造。
未来的工作模式：人类 + AI 搭档。AI 负责快速生成初稿，人类负责把关、修正和确认。

总结

这就好比AI 是一个才华横溢但偶尔会犯迷糊的实习生。

如果你让它去写法律，它可能会搞错。
但如果你让它把法律翻译成简单的“操作指南”，它做得非常好，能帮你省下大量时间。
只要你记得最后亲自检查一遍，别让它“瞎指挥”，它就是一个完美的帮手。

这项研究证明了，在像食品安全这样严肃的领域，利用 AI 来辅助合规工作是完全可行的，只要我们要保持“人类在环”（Human-in-the-loop），即人类始终掌握最终决定权。

From Law to Gherkin: A Human-Centred Quasi-Experiment on the Quality of LLM-Generated Behavioural Specifications from Food-Safety Regulations

1. 背景：为什么我们需要这个？

2. 实验过程：让 AI 当“翻译官”

3. 实验结果：AI 表现如何？

4. 核心结论：AI 是“助手”，不是“替身”

总结

1. 研究背景与问题 (Problem)

2. 研究方法 (Methodology)

3. 主要贡献 (Key Contributions)

4. 研究结果 (Results)

5. 研究意义与结论 (Significance & Conclusion)

From Law to Gherkin: A Human-Centred Quasi-Experiment on the Quality of LLM-Generated Behavioural Specifications from Food-Safety Regulations

1. 背景：为什么我们需要这个？

2. 实验过程：让 AI 当“翻译官”

3. 实验结果：AI 表现如何？

4. 核心结论：AI 是“助手”，不是“替身”

总结

1. 研究背景与问题 (Problem)

2. 研究方法 (Methodology)

3. 主要贡献 (Key Contributions)

4. 研究结果 (Results)

5. 研究意义与结论 (Significance & Conclusion)

类似论文

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities