Behaviour Driven Development Scenario Generation with Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie bauen ein riesiges, komplexes Haus. Bevor Sie auch nur einen Stein setzen, müssen Sie genau wissen, wie jedes Zimmer funktionieren soll: Wo ist die Tür? Wie öffnet sich das Fenster? Was passiert, wenn der Strom ausfällt?

In der Softwareentwicklung nennt man diese detaillierten Pläne BDD-Szenarien (Behavior-Driven Development). Früher mussten Menschen diese Pläne mühsam von Hand schreiben. Das war langsam, teuer und oft ungenau – wie wenn ein Architekt versuchen würde, einen ganzen Stadtplan aus dem Gedächtnis zu zeichnen, ohne Baupläne zu haben.

Dieser Forschungsbericht fragt sich: Können moderne KI-Modelle (wie GPT-4, Claude 3 oder Gemini) diese Pläne schneller und besser zeichnen als Menschen?

Hier ist die Geschichte der Forschung, einfach erklärt:

1. Das Problem: Der mühsame Handwerker

Stellen Sie sich Sarah vor, eine Qualitätsprüferin. Sie bekommt eine kurze Notiz von ihrem Chef: "Ich möchte, dass Dateien nur für eine bestimmte Zeit zugänglich sind."
Sarah muss nun stundenlang nachdenken: "Was passiert, wenn die Zeit abläuft? Was, wenn zwei Benutzer gleichzeitig zugreifen? Was ist mit Zeitverschiebungen?" Sie schreibt einen riesigen Text (den BDD-Szenario), der alle diese Details erklärt. Das kostet Zeit und führt oft dazu, dass wichtige Details übersehen werden.

2. Die Lösung: Der KI-Assistent

Die Forscher haben drei verschiedene KI-Assistenten getestet, um zu sehen, ob sie Sarahs Arbeit übernehmen können. Sie gaben den KIs die kurze Notiz und eine etwas längere Beschreibung der Anforderungen. Die KIs sollten daraus den perfekten Bauplan (das BDD-Szenario) schreiben.

3. Die Überraschungen: Wer ist der beste Handwerker?

Die Forscher haben die Ergebnisse auf verschiedene Arten geprüft:

Der Wort-Vergleich: Hat die KI die gleichen Wörter benutzt wie der menschliche Originalplan? (Hier war GPT-4 der Gewinner).
Der Sinn-Vergleich: Hat die KI den Gedanken hinter dem Plan verstanden, auch wenn die Wörter anders waren? (Hier war Claude 3 überraschend stark).
Der menschliche Richter: Was sagen echte Experten? Hier hat Claude 3 gewonnen. Die menschlichen Prüfer sagten: "Der Plan von Claude 3 ist am klarsten und nützlichsten."

Die Lektion: Manchmal ist es nicht wichtig, dass die KI exakt dieselben Wörter benutzt wie ein Mensch. Es ist wichtiger, dass sie den Sinn versteht und einen Plan liefert, der in der echten Welt funktioniert.

4. Der Zaubertrick: Wie man die KI fragt (Prompts)

Die Forscher haben entdeckt, dass man die KIs nicht alle gleich behandeln darf. Es ist wie beim Kochen: Ein Rezept funktioniert nicht für jeden Koch gleich.

GPT-4 ist wie ein Meisterkoch, der einfach eine Aufgabe bekommt und sofort loslegt. Er braucht keine Beispiele. (Man nennt das "Zero-Shot").
Claude 3 liebt es, Schritt-für-Schritt zu denken. Wenn man ihm sagt: "Denke erst nach, dann schreibe", macht er die besten Pläne. (Das nennt man "Chain-of-Thought").
Gemini braucht ein Beispiel. Man muss ihm zeigen: "Schau, so sieht ein guter Plan aus. Jetzt mach einen für dieses neue Ding." (Das nennt man "Few-Shot").

5. Das Wichtigste: Der Input ist alles

Das war die größte Erkenntnis: Die Qualität der KI hängt davon ab, was Sie ihr geben.

Wenn Sie der KI nur die kurze Notiz geben ("Ich will Zeitbegrenzung"), liefert sie einen schlechten Plan.
Wenn Sie ihr aber eine detaillierte Beschreibung geben ("Die Datei muss um 23:59 Uhr gesperrt werden, eine E-Mail muss 24 Stunden vorher gehen, und Zeitverschiebungen müssen berücksichtigt werden"), liefert sie einen hervorragenden Plan.
Fazit: Die KI ist kein Magier, der aus dem Nichts Details erfindet. Sie ist wie ein sehr schneller Übersetzer. Wenn Sie ihr keine klaren Anweisungen geben, kann sie keine guten Pläne erstellen.

6. Die Einstellung: Keine Kreativität, sondern Präzision

Am Ende haben die Forscher herausgefunden, dass man die KI auf "Gedankenlosigkeit" stellen muss.
Stellen Sie sich vor, Sie wollen einen Bauplan für ein Hochhaus. Wollen Sie, dass der Architekt heute kreativ ist und morgen eine andere Tür einbaut? Nein! Sie wollen, dass er exakt das tut, was Sie sagen.
Die besten Ergebnisse erzielten alle KIs, wenn man sie auf "Null Zufall" stellte. Das bedeutet: Gleiche Eingabe = immer genau das gleiche, perfekte Ergebnis.

Zusammenfassung für den Alltag

Diese Forschung sagt uns:

KI kann helfen: Sie kann die langweilige Arbeit des Planens übernehmen und Zeit sparen.
Nicht alle KIs sind gleich: Je nach Aufgabe muss man die richtige KI wählen und sie richtig "ansprechen".
Gute Vorbereitung ist alles: Wenn Sie der KI keine guten Details geben, bekommen Sie keinen guten Plan. Die KI ersetzt nicht das Denken, sie beschleunigt nur die Umsetzung.
Der beste Assistent: Unter den getesteten Modellen war Claude 3 derjenige, dessen Pläne die menschlichen Experten am meisten mochten.

Kurz gesagt: Die KI ist ein super Werkzeug, aber Sie müssen immer noch der Architekt sein, der die genauen Spezifikationen liefert.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Behaviour Driven Development Scenario Generation with Large Language Models" auf Deutsch:

1. Problemstellung

In der modernen Softwareentwicklung stellen agile Methoden und Continuous Delivery hohe Anforderungen an die Testabdeckung. Traditionelle manuelle Ansätze zur Erstellung von Behavior-Driven Development (BDD)-Szenarien stoßen an ihre Grenzen:

Skalierbarkeit: Der manuelle Prozess ist zeitaufwendig und erzeugt Engpässe in schnellen Entwicklungszyklen.
Qualitätsschwankungen: Die Qualität der Szenarien hängt stark von der Expertise des Autors ab, was zu inkonsistenten Testabdeckungen und Lücken bei Randfällen (Edge Cases) führt.
Forschungslücke: Obwohl Large Language Models (LLMs) vielversprechend für die Textgenerierung sind, fehlt es an systematischen Evaluierungen, welche Modelle für BDD-Szenarien am besten geeignet sind, welche Prompting-Techniken funktionieren und wie sich Eingabequalität und Modellparameter auswirken. Zudem existierte bisher kein öffentliches Datenset aus industriellen BDD-Szenarien zur Validierung.

2. Methodik

Die Autoren führten eine umfassende empirische Studie durch, die sich auf vier Forschungsfragen (RQs) konzentrierte:

Datensatz-Erstellung (Erster Beitrag):

Es wurde ein neues, öffentliches Datenset mit 500 User Stories, zugehörigen Anforderungsbeschreibungen und den korrespondierenden manuell erstellten BDD-Szenarien erstellt.
Die Daten stammen aus vier proprietären Softwareprodukten eines Unternehmens (IntelligenceBank) und wurden aus Jira und Confluence extrahiert, bereinigt und standardisiert.

Experimentelles Design:

Modelle: Drei führende LLMs wurden verglichen: GPT-4 (OpenAI), Claude 3 (Anthropic) und Gemini (Google).
Prompting-Techniken (RQ2): Es wurden drei Strategien getestet: Zero-Shot, Few-Shot (mit Beispielen) und Chain-of-Thought (CoT, schrittweises Denken).
Eingabetypen (RQ3): Die Modelle erhielten entweder nur User Stories, nur Anforderungsbeschreibungen oder beide kombiniert.
Modellparameter (RQ4): Der Einfluss von temperature (0, 0.5, 1.0) und top_p (0.5, 1.0) auf die Ergebnisqualität wurde untersucht.

Evaluierungs-Framework:
Die generierten Szenarien wurden multidimensional bewertet:

Text-Ähnlichkeit: BLEU, METEOR, ROUGE-L.
Semantische Ähnlichkeit: BERTScore, SBCS, SBED, USECS.
LLM-basierte Evaluation: Die Modelle (inkl. DeepSeek) bewerteten die Szenarien selbst.
Human Evaluation: Sechs Senior-QA-Experten bewerteten eine Stichprobe von 600 Szenarien (200 pro Modell) auf einer 5-Punkte-Skala.

3. Wichtige Ergebnisse

RQ1: Effektivität der Modelle

Text- vs. Semantische Ähnlichkeit: GPT-4 erzielte die höchsten Werte bei textbasierten Metriken (BLEU, METEOR, ROUGE-L).
Qualität nach Expertenmeinung: Überraschenderweise wurde Claude 3 sowohl von menschlichen Experten als auch von LLM-basierten Evaluatoren (insbesondere DeepSeek) als das Modell mit der höchsten Szenarioqualität eingestuft.
Korrelation: LLM-basierte Evaluatoren (besonders DeepSeek) zeigten eine starke positive Korrelation mit menschlichen Urteilen ( $\rho \approx 0.62 - 0.72$ ), während traditionelle Text-Ähnlichkeitsmetriken eine sehr schwache Korrelation aufwiesen.

RQ2: Einfluss von Prompting-Techniken
Die optimale Strategie ist modellabhängig:

GPT-4: Performte am besten mit Zero-Shot (keine Beispiele).
Claude 3: Zeigte marginale Verbesserungen durch Chain-of-Thought (schrittweise Analyse).
Gemini: Erzielte die besten Ergebnisse mit Few-Shot (Beispielen im Prompt).

RQ3: Einfluss der Eingabequalität

Anforderungsbeschreibungen sind entscheidend: Detaillierte Anforderungsbeschreibungen (Requirements Descriptions) allein führen zu hochwertigen Szenarien.
User Stories allein: Reine User Stories führen zu einer signifikanten Verschlechterung der Qualität (ca. 20–28 % niedrigerer Score), da ihnen technische Tiefe und spezifische Akzeptanzkriterien fehlen.
Die Kombination aus User Story und Beschreibung liefert die besten Ergebnisse.

RQ4: Modellparameter

Die deterministischsten Einstellungen (Temperature = 0 und Top_p = 1.0) erzeugten durchgängig die qualitativ hochwertigsten und konsistentesten BDD-Szenarien über alle Modelle hinweg. Höhere Temperaturen (mehr Zufall) verschlechterten die Ergebnisse.

4. Hauptbeiträge

Datensatz: Erstellung und Veröffentlichung des ersten öffentlichen Datensets mit 500 realen industriellen User Stories und BDD-Szenarien.
Umfassende Evaluation: Erste systematische Studie, die BDD-Generierung aus mehreren Perspektiven (Automatisierte Metriken, LLM-Evaluation, Human Evaluation) vergleicht.
Praktische Leitlinien: Empfohlene Konfigurationen für die Praxis (z. B. Nutzung von DeepSeek als Evaluierer, spezifische Prompting-Strategien pro Modell, Fokus auf detaillierte Anforderungsdokumentation).
Open Source: Bereitstellung des Datensatzes und des Quellcodes zur Reproduzierbarkeit.

5. Bedeutung und Implikationen

Praktische Machbarkeit: LLMs sind reif genug, um als effiziente Werkzeuge zur Generierung von BDD-Szenarien eingesetzt zu werden, was den Testaufwand reduziert und die Abdeckung erhöht.
Verschiebung der Dokumentationspraxis: Für den erfolgreichen Einsatz von LLMs in BDD müssen Teams von reinen, knappen User Stories zu detaillierten Anforderungsbeschreibungen übergehen, da diese die eigentliche Quelle für hochwertige Szenarien sind.
Hybride Workflows: Die Ergebnisse unterstützen einen hybriden Ansatz, bei dem LLMs Entwürfe erstellen, die von menschlichen Experten verfeinert werden. LLM-basierte Evaluatoren (wie DeepSeek) können dabei helfen, große Mengen an Szenarien vorzufiltern.
Konsistenz vs. Kreativität: Für die BDD-Generierung ist deterministisches Verhalten (Temperature 0) der Kreativität vorzuziehen, um konsistente und zuverlässige Testfälle zu gewährleisten.

Zusammenfassend zeigt das Paper, dass LLMs das Potenzial haben, BDD-Prozesse zu skalieren, jedoch der Erfolg stark von der Qualität der Eingabedaten, der Wahl des richtigen Modells für die jeweilige Prompting-Strategie und der korrekten Parametrisierung abhängt.

Behaviour Driven Development Scenario Generation with Large Language Models

1. Das Problem: Der mühsame Handwerker

2. Die Lösung: Der KI-Assistent

3. Die Überraschungen: Wer ist der beste Handwerker?

4. Der Zaubertrick: Wie man die KI fragt (Prompts)

5. Das Wichtigste: Der Input ist alles

6. Die Einstellung: Keine Kreativität, sondern Präzision

Zusammenfassung für den Alltag

1. Problemstellung

2. Methodik

3. Wichtige Ergebnisse

4. Hauptbeiträge

5. Bedeutung und Implikationen

Mehr davon

Keep Ballots Secret: On the Futility of Social Learning in Decision Making by Voting

Social Teaching: Being Informative vs. Being Right in Sequential Decision Making

Beyond Binomial and Negative Binomial: Adaptation in Bernoulli Parameter Estimation

Homotopy type theory as a language for diagrams of ∞\infty∞-logoses

One is all you need: Second-order Unification without First-order Variables

Homotopy type theory as a language for diagrams of $\infty$ -logoses