From Law to Gherkin: A Human-Centred Quasi-Experiment on the Quality of LLM-Generated Behavioural Specifications from Food-Safety Regulations

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind ein Koch, der ein neues Restaurant eröffnen will. Aber bevor Sie auch nur einen Topf aufsetzen dürfen, müssen Sie sich an ein riesiges, 100-seitiges Regelwerk halten, das von strengen Lebensmittelbehörden geschrieben wurde. Diese Regeln sind wichtig, damit niemand krank wird, aber sie sind oft in einer sehr trockenen, juristischen Sprache verfasst, die für einen Software-Entwickler (der die Küche automatisieren soll) wie Kauderwelsch klingt.

Die Forscher in diesem Papier haben sich eine spannende Frage gestellt: Können diese modernen KI-Chatbots (die sogenannten "Large Language Models" oder LLMs) diese trockenen Gesetze in klare, handlungsanweisende Rezepte übersetzen?

Hier ist die Geschichte ihrer Entdeckungen, einfach erklärt:

1. Das Problem: Die Übersetzungs-Hürde

Gesetze sind wie ein riesiger, unübersichtlicher Berg aus Papier. Ein Software-Entwickler muss daraus aber konkrete Anweisungen machen, wie ein Computerprogramm sich verhalten soll. Wenn man das von Hand macht, ist das extrem mühsam, teuer und fehleranfällig. Ein kleiner Fehler in der Übersetzung könnte bedeuten, dass das Programm Eier falsch wiegt oder die Temperatur nicht prüft – und das könnte im schlimmsten Fall zu vergifteten Lebensmitteln führen.

2. Die Lösung: Der KI-Assistent

Die Forscher haben zwei sehr bekannte KI-Modelle getestet: Claude und Llama. Ihre Aufgabe war es, diese KI-Modelle zu bitten, die Gesetze in eine spezielle Sprache namens Gherkin zu übersetzen.

Was ist Gherkin? Stellen Sie sich Gherkin wie ein sehr einfaches Kochrezept vor, das jeder versteht. Es folgt immer dem Schema:
- Gegeben (Given): Hier ist der Zustand (z. B. "Der Kühlschrank ist auf 4 Grad").
- Wenn (When): Dann passiert etwas (z. B. "Ein Kunde bestellt ein Ei").
- Dann (Then): Das ist das Ergebnis (z. B. "Das Ei muss mindestens 23,5 % Eiweiß enthalten").

Das Tolle an Gherkin ist, dass es nicht nur Menschen verstehen, sondern auch von Computern automatisch geprüft werden kann.

3. Das Experiment: Der Blindtest

Die Forscher haben 10 Experten (Studenten und Doktoranden, die sich mit Software auskennen) gebeten, die von den KI-Modellen erstellten "Rezepte" zu bewerten.

Sie bekamen 60 verschiedene "Rezepte" (Spezifikationen).
Jedes Rezept wurde von zwei verschiedenen Personen geprüft.
Die Bewertungskriterien waren: Ist das Rezept relevant? Ist es klar verständlich? Ist alles drin, was im Gesetz steht? Und spart es Zeit?

4. Die Ergebnisse: Ein großer Erfolg mit kleinen Macken

Das Ergebnis war überraschend positiv, aber mit einem wichtigen "Aber".

Die guten Nachrichten:
Die KI-Modelle waren hervorragend.

Die "Rezepte" waren zu 95–100 % relevant und klar verständlich.
Die Teilnehmer waren sich einig: Die KI hat die Gesetze fast perfekt verstanden und in eine Form gebracht, die man sofort nutzen kann.
Es hat den Experten viel Zeit gespart. Statt stundenlang zu grübeln, hatten sie einen fast fertigen Entwurf, den sie nur noch prüfen mussten.

Die schlechten Nachrichten (Die "Halluzinationen" und Lücken):
Aber die KI ist nicht perfekt, genau wie ein sehr schneller, aber manchmal etwas abwesender Koch-Assistent.

Lücken (Omissions): Manchmal hat die KI wichtige Details übersehen. Zum Beispiel hat sie vergessen zu erwähnen, dass ein Etikett auf Deutsch und Französisch sein muss. In der echten Welt wäre das ein Problem.
Halluzinationen: Manchmal hat die KI Dinge erfunden, die im Gesetz gar nicht stehen. Ein Beispiel: Das Gesetz sagt nichts davon, dass das Programm eine Warnung auf einem Bildschirm anzeigen soll. Aber die KI hat trotzdem einen Schritt eingebaut: "Wenn das Ei zu kalt ist, zeige eine rote Warnung." Das Gesetz verlangt das gar nicht!
Gemischte Aufgaben: Manchmal hat die KI zwei verschiedene Aufgaben in einem einzigen "Rezept" vermischt, was verwirrend ist.

5. Die Lektion: Der KI-Assistent, aber mit Aufsicht

Die wichtigste Erkenntnis dieser Studie ist: Verlassen Sie sich nicht blind auf die KI, aber nutzen Sie sie als Starthilfe.

Stellen Sie sich die KI wie einen sehr talentierten, aber noch unerfahrenen Lehrling vor.

Wenn Sie dem Lehrling die Aufgabe geben, ein Rezept zu schreiben, macht er das extrem schnell und die Grundstruktur ist perfekt.
Aber Sie müssen als erfahrener Küchenchef (der menschliche Experte) danach kommen und das Rezept genau durchlesen. Sie müssen prüfen: "Hat er etwas Wichtiges vergessen?" und "Hat er sich etwas ausgedacht, das nicht dazugehört?"

Fazit für den Alltag

In Bereichen, die mit Sicherheit zu tun haben (wie Lebensmittel, Medizin oder autonomes Fahren), ist diese Methode vielversprechend. Die KI kann den schweren Teil der Arbeit (das Schreiben des ersten Entwurfs) übernehmen und so viel Zeit sparen. Aber der menschliche Blick ist unverzichtbar, um sicherzustellen, dass am Ende niemand durch einen kleinen Fehler der KI zu Schaden kommt.

Die KI ist also kein Ersatz für den Menschen, sondern ein Super-Verstärker, der uns hilft, Gesetze schneller in funktionierende Software zu verwandeln – solange wir den Hut aufbehalten und genau hinschauen.

From Law to Gherkin: A Human-Centred Quasi-Experiment on the Quality of LLM-Generated Behavioural Specifications from Food-Safety Regulations

1. Das Problem: Die Übersetzungs-Hürde

2. Die Lösung: Der KI-Assistent

3. Das Experiment: Der Blindtest

4. Die Ergebnisse: Ein großer Erfolg mit kleinen Macken

5. Die Lektion: Der KI-Assistent, aber mit Aufsicht

Fazit für den Alltag

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Schlussfolgerung

From Law to Gherkin: A Human-Centred Quasi-Experiment on the Quality of LLM-Generated Behavioural Specifications from Food-Safety Regulations

1. Das Problem: Die Übersetzungs-Hürde

2. Die Lösung: Der KI-Assistent

3. Das Experiment: Der Blindtest

4. Die Ergebnisse: Ein großer Erfolg mit kleinen Macken

5. Die Lektion: Der KI-Assistent, aber mit Aufsicht

Fazit für den Alltag

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Schlussfolgerung

Mehr davon

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities