From Law to Gherkin: A Human-Centred Quasi-Experiment on the Quality of LLM-Generated Behavioural Specifications from Food-Safety Regulations

Dit quasi-experiment toont aan dat grote taalmodellen effectief kunnen helpen bij het vertalen van voedselveiligheidsregels naar Gherkin-specificaties, maar dat menselijke controle essentieel blijft om fouten en hallucinaties op te vangen.

Shabnam Hassani, Mehrdad Sabetzadeh, Daniel Amyot

Gepubliceerd Thu, 12 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een recept moet maken voor een gigantische, wereldwijde keuken. Maar in plaats van dat de chef-kok je een duidelijk recept geeft, krijg je een wettelijk boek vol met ingewikkelde zinnen over hoe voedsel veilig moet zijn. Die wettelijke zinnen zijn vaak vaag, technisch neutraal en niet bedoeld voor koks of softwareontwikkelaars.

Het probleem? Als je die wettelijke regels niet precies vertaalt naar een duidelijk kookrecept (in dit geval: een softwareprogramma), kan het eten ziek maken, of kan je bedrijf een enorme boete krijgen. Het handmatig vertalen van die wettelijke taal naar een werkend recept is echter extreem tijdrovend en vol fouten.

Hier komt AI (specifiek "Large Language Models" of LLMs) om de hoek kijken. De onderzoekers van deze studie wilden weten: Kan een slimme computer die wettelijke regels automatisch omzetten in een perfect, duidelijk kookrecept voor software?

Het Experiment: De "Gherkin"-Keuken

In de wereld van software heet zo'n duidelijk recept Gherkin. Het is een taal die werkt met een simpel patroon:

  • Gegeven (Given): De situatie (bijv. "We hebben een ei").
  • Wanneer (When): De actie (bijv. "We wegen het ei").
  • Dan (Then): Het resultaat (bijv. "Het ei moet zwaar genoeg zijn").

De onderzoekers gaven twee super-slimme AI's (genaamd Claude en Llama) een lijst met 30 wettelijke regels over voedselveiligheid (bijvoorbeeld regels over eieren) en vroegen hen om deze om te zetten in Gherkin-recepten.

Vervolgens lieten ze 10 mensen (studenten en experts in software) deze AI-recepten beoordelen. Ze keken naar vijf dingen:

  1. Is het relevant? (Klopt het met de wet?)
  2. Is het duidelijk? (Begrijp je het?)
  3. Is het compleet? (Ontbreken er stappen?)
  4. Is het één doel? (Is het recept niet een rommelige mix van verschillende taken?)
  5. Tijdwinst: (Bespaart het tijd om dit te schrijven?)

Wat vonden ze? (De Resultaten)

De resultaten waren verrassend goed, maar niet perfect.

  • De AI's zijn geweldige "eerste schrijvers": De meeste recepten die de AI's maakten waren uitstekend. Ze waren duidelijk, relevant en bespaarden de mensen enorm veel tijd. Het was alsof de AI's je een perfect uitgeschreven recept gaven dat je alleen nog maar hoeft te controleren, in plaats van dat je het zelf vanaf nul moet bedenken.
  • Geen grote winnaar: De twee AI's (Claude en Llama) waren ongeveer even goed. Geen van beiden was duidelijk de beste; ze maakten allebei goede, maar ook soms foutieve recepten.
  • De valkuilen (De "Gevaarlijke" Fouten):
    • Hallucinaties: Soms verzon de AI dingen die er niet in de wet stonden. Analogie: De wet zegt "meet de temperatuur", maar de AI schrijft: "als de temperatuur te hoog is, laat het systeem een rode waarschuwing zien." De wet zegt niets over een rode waarschuwing! Dat is een uitvinding van de AI.
    • Ontbrekende stukjes: Soms vergat de AI een belangrijke regel. Analogie: De wet zegt "controleer de temperatuur én de hygiëne", maar de AI schrijft alleen over de temperatuur. In de echte wereld kan dat leiden tot ziek voedsel.
    • Gemengde doelen: Soms probeerde de AI twee verschillende regels in één zin te proppen, waardoor het verwarrend werd.

De Conclusie: AI als Chef-kok-assistent, niet als Hoofdchef

De boodschap van dit onderzoek is heel duidelijk:

Gebruik AI, maar laat de mens het laatste woord hebben.

Je kunt de AI zien als een super-snelle stagiair die een recept voor je opschrijft. De stagiair is razendsnel en schrijft 95% van de dingen perfect. Maar omdat de stagiair soms dingen uit zijn duim zuigt (hallucinaties) of een stap vergeet, moet je altijd als ervaren chef-kok (de mens) het recept controleren voordat je het aan de klant geeft.

In de wereld van voedselveiligheid (en andere strenge regels) is dit cruciaal. Als je de AI blindelings vertrouwt, kan een klein foutje leiden tot grote problemen. Maar als je de AI gebruikt om het zware, saaie werk van het eerste opschrijven te doen, en daarna zelf de controle houdt, bespaar je enorme hoeveelheden tijd en krijg je betere resultaten.

Kortom: De AI is een fantastisch hulpmiddel om de brug te slaan tussen saaie wettelijke taal en werkende software, maar de mens moet altijd de "veiligheidscontrole" uitvoeren.