Behaviour Driven Development Scenario Generation with Large Language Models

Diese Studie bewertet die Fähigkeit von GPT-4, Claude 3 und Gemini, BDD-Szenarien aus 500 User Stories zu generieren, und stellt fest, dass Claude 3 zwar von menschlichen Experten und LLM-Bewertern als beste Lösung eingestuft wird, während GPT-4 in textuellen Ähnlichkeitsmetriken führt, wobei die Qualität stark von der Eingabequalität, modellspezifischen Prompting-Techniken und deterministischen Parametereinstellungen abhängt.

Amila Rathnayake, Mojtaba Shahin, Golnoush Abaei

Veröffentlicht 2026-03-06
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie bauen ein riesiges, komplexes Haus. Bevor Sie auch nur einen Stein setzen, müssen Sie genau wissen, wie jedes Zimmer funktionieren soll: Wo ist die Tür? Wie öffnet sich das Fenster? Was passiert, wenn der Strom ausfällt?

In der Softwareentwicklung nennt man diese detaillierten Pläne BDD-Szenarien (Behavior-Driven Development). Früher mussten Menschen diese Pläne mühsam von Hand schreiben. Das war langsam, teuer und oft ungenau – wie wenn ein Architekt versuchen würde, einen ganzen Stadtplan aus dem Gedächtnis zu zeichnen, ohne Baupläne zu haben.

Dieser Forschungsbericht fragt sich: Können moderne KI-Modelle (wie GPT-4, Claude 3 oder Gemini) diese Pläne schneller und besser zeichnen als Menschen?

Hier ist die Geschichte der Forschung, einfach erklärt:

1. Das Problem: Der mühsame Handwerker

Stellen Sie sich Sarah vor, eine Qualitätsprüferin. Sie bekommt eine kurze Notiz von ihrem Chef: "Ich möchte, dass Dateien nur für eine bestimmte Zeit zugänglich sind."
Sarah muss nun stundenlang nachdenken: "Was passiert, wenn die Zeit abläuft? Was, wenn zwei Benutzer gleichzeitig zugreifen? Was ist mit Zeitverschiebungen?" Sie schreibt einen riesigen Text (den BDD-Szenario), der alle diese Details erklärt. Das kostet Zeit und führt oft dazu, dass wichtige Details übersehen werden.

2. Die Lösung: Der KI-Assistent

Die Forscher haben drei verschiedene KI-Assistenten getestet, um zu sehen, ob sie Sarahs Arbeit übernehmen können. Sie gaben den KIs die kurze Notiz und eine etwas längere Beschreibung der Anforderungen. Die KIs sollten daraus den perfekten Bauplan (das BDD-Szenario) schreiben.

3. Die Überraschungen: Wer ist der beste Handwerker?

Die Forscher haben die Ergebnisse auf verschiedene Arten geprüft:

  • Der Wort-Vergleich: Hat die KI die gleichen Wörter benutzt wie der menschliche Originalplan? (Hier war GPT-4 der Gewinner).
  • Der Sinn-Vergleich: Hat die KI den Gedanken hinter dem Plan verstanden, auch wenn die Wörter anders waren? (Hier war Claude 3 überraschend stark).
  • Der menschliche Richter: Was sagen echte Experten? Hier hat Claude 3 gewonnen. Die menschlichen Prüfer sagten: "Der Plan von Claude 3 ist am klarsten und nützlichsten."

Die Lektion: Manchmal ist es nicht wichtig, dass die KI exakt dieselben Wörter benutzt wie ein Mensch. Es ist wichtiger, dass sie den Sinn versteht und einen Plan liefert, der in der echten Welt funktioniert.

4. Der Zaubertrick: Wie man die KI fragt (Prompts)

Die Forscher haben entdeckt, dass man die KIs nicht alle gleich behandeln darf. Es ist wie beim Kochen: Ein Rezept funktioniert nicht für jeden Koch gleich.

  • GPT-4 ist wie ein Meisterkoch, der einfach eine Aufgabe bekommt und sofort loslegt. Er braucht keine Beispiele. (Man nennt das "Zero-Shot").
  • Claude 3 liebt es, Schritt-für-Schritt zu denken. Wenn man ihm sagt: "Denke erst nach, dann schreibe", macht er die besten Pläne. (Das nennt man "Chain-of-Thought").
  • Gemini braucht ein Beispiel. Man muss ihm zeigen: "Schau, so sieht ein guter Plan aus. Jetzt mach einen für dieses neue Ding." (Das nennt man "Few-Shot").

5. Das Wichtigste: Der Input ist alles

Das war die größte Erkenntnis: Die Qualität der KI hängt davon ab, was Sie ihr geben.

  • Wenn Sie der KI nur die kurze Notiz geben ("Ich will Zeitbegrenzung"), liefert sie einen schlechten Plan.
  • Wenn Sie ihr aber eine detaillierte Beschreibung geben ("Die Datei muss um 23:59 Uhr gesperrt werden, eine E-Mail muss 24 Stunden vorher gehen, und Zeitverschiebungen müssen berücksichtigt werden"), liefert sie einen hervorragenden Plan.
  • Fazit: Die KI ist kein Magier, der aus dem Nichts Details erfindet. Sie ist wie ein sehr schneller Übersetzer. Wenn Sie ihr keine klaren Anweisungen geben, kann sie keine guten Pläne erstellen.

6. Die Einstellung: Keine Kreativität, sondern Präzision

Am Ende haben die Forscher herausgefunden, dass man die KI auf "Gedankenlosigkeit" stellen muss.
Stellen Sie sich vor, Sie wollen einen Bauplan für ein Hochhaus. Wollen Sie, dass der Architekt heute kreativ ist und morgen eine andere Tür einbaut? Nein! Sie wollen, dass er exakt das tut, was Sie sagen.
Die besten Ergebnisse erzielten alle KIs, wenn man sie auf "Null Zufall" stellte. Das bedeutet: Gleiche Eingabe = immer genau das gleiche, perfekte Ergebnis.

Zusammenfassung für den Alltag

Diese Forschung sagt uns:

  1. KI kann helfen: Sie kann die langweilige Arbeit des Planens übernehmen und Zeit sparen.
  2. Nicht alle KIs sind gleich: Je nach Aufgabe muss man die richtige KI wählen und sie richtig "ansprechen".
  3. Gute Vorbereitung ist alles: Wenn Sie der KI keine guten Details geben, bekommen Sie keinen guten Plan. Die KI ersetzt nicht das Denken, sie beschleunigt nur die Umsetzung.
  4. Der beste Assistent: Unter den getesteten Modellen war Claude 3 derjenige, dessen Pläne die menschlichen Experten am meisten mochten.

Kurz gesagt: Die KI ist ein super Werkzeug, aber Sie müssen immer noch der Architekt sein, der die genauen Spezifikationen liefert.