From Law to Gherkin: A Human-Centred Quasi-Experiment on the Quality of LLM-Generated Behavioural Specifications from Food-Safety Regulations

该研究通过准实验评估了大语言模型从食品安全法规生成 Gherkin 行为规范的能力,结果显示其生成的规范在相关性和清晰度等方面评分极高,但仍存在遗漏和幻觉问题,因此在安全关键领域仍需系统性的人工审查。

Shabnam Hassani, Mehrdad Sabetzadeh, Daniel Amyot

发布于 Thu, 12 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章讲述了一个非常有趣且实用的实验:我们能不能让“人工智能(AI)”帮我们把枯燥、难懂的法律条文,翻译成程序员能直接看懂的“操作说明书”?

为了让你轻松理解,我们可以把这项研究想象成**“把复杂的食谱翻译成傻瓜式烹饪指南”**的过程。

1. 背景:为什么我们需要这个?

想象一下,政府发布了一条关于食品安全的法律(比如:“鸡蛋里的细菌不能超过 5 万个”)。

  • 法律的语言:像是一篇严谨的学术论文,充满了“应当”、“不得”、“在……情况下”等词,而且故意不写具体的技术细节,因为法律要管所有情况。
  • 程序员的困境:软件工程师需要写代码来监控鸡蛋。但法律没告诉他们代码具体该怎么写。如果让程序员手动把法律翻译成代码需求,既慢又容易出错。一旦出错,可能导致食品安全事故,后果很严重。

现在的想法:既然现在的 AI(大语言模型,LLM)很聪明,能不能让它直接读法律,然后写出Gherkin

  • 什么是 Gherkin? 你可以把它想象成一种**“万能烹饪步骤卡”**。它的格式很简单:
    • Given(假如):假如鸡蛋是液态的……
    • When(当):当我们要检测细菌时……
    • Then(那么):那么细菌数量必须少于 5 万。
      这种格式既像人话,又能让电脑直接执行测试。

2. 实验过程:让 AI 当“翻译官”

研究者找了两个顶尖的 AI 模型(一个是 Claude,一个是 Llama),把它们当成了“翻译官”。

  • 任务:给它们 30 条真实的加拿大食品安全法律条文。
  • 目标:让它们写出对应的"Gherkin 烹饪步骤卡”。
  • 评委:找了 10 位懂软件开发的“美食评论家”(学生和研究者),让他们来给 AI 写的卡片打分。

打分标准(就像评价一道菜):

  1. 相关性:这道菜是不是真的在讲法律里说的事?(没跑题吗?)
  2. 清晰度:步骤写得清楚吗?有没有让人看不懂?
  3. 完整性:法律里说的所有细节都写进去了吗?有没有漏掉什么配料?
  4. 单一性:一张卡片是不是只讲一件事?(比如,不要在一行里既讲“重量”又讲“细菌”,要分开写)。
  5. 省时:如果让 AI 写,能帮人类省多少时间?

3. 实验结果:AI 表现如何?

好消息:
AI 的表现非常棒

  • 评委们给出的分数都很高。绝大多数 AI 生成的卡片都被认为是“完全相关”、“非常清晰”且“能节省大量时间”。
  • 这就好比,AI 作为一个新手厨师,第一次尝试做这道菜,竟然做出了 90% 以上都能直接上桌的成品。
  • Claude 和 Llama 两个 AI 打平手,没有谁明显比谁强太多。

坏消息(也是最重要的发现):
虽然 AI 很聪明,但它不能直接用来做饭(不能直接用来写代码),必须有人类大厨在旁边盯着。

  • 漏掉配料(遗漏):有时候 AI 会漏掉法律里的某个关键数字或条件。比如法律说“细菌不能超过 5 万”,AI 可能只写了“要检测细菌”,忘了写"5 万”这个界限。在食品安全领域,漏掉一个数字就是灾难。
  • 瞎编乱造(幻觉):有时候 AI 会自己加戏。比如法律只说了要检测细菌,AI 却自己加了一句“如果细菌超标,系统要发出警报并亮红灯”。法律里没说要亮红灯,这是 AI 自己脑补的。
  • 大杂烩(缺乏单一性):有时候 AI 喜欢把好几个任务塞进一张卡片里,让人看得晕头转向。

4. 核心结论:AI 是“助手”,不是“替身”

这项研究告诉我们:

  • AI 是个超级高效的“草稿员”。以前人类写这些说明书要花几天,现在 AI 几分钟就能写出 90% 正确的草稿。
  • 但是,人类必须做“最终审核”。特别是在食品安全这种关乎人命的事情上,我们不能完全信任 AI。人类需要检查 AI 有没有漏掉关键信息,有没有瞎编乱造。
  • 未来的工作模式:人类 + AI 搭档。AI 负责快速生成初稿,人类负责把关、修正和确认。

总结

这就好比AI 是一个才华横溢但偶尔会犯迷糊的实习生

  • 如果你让它去写法律,它可能会搞错。
  • 但如果你让它把法律翻译成简单的“操作指南”,它做得非常好,能帮你省下大量时间。
  • 只要你记得最后亲自检查一遍,别让它“瞎指挥”,它就是一个完美的帮手。

这项研究证明了,在像食品安全这样严肃的领域,利用 AI 来辅助合规工作是完全可行的,只要我们要保持“人类在环”(Human-in-the-loop),即人类始终掌握最终决定权。