Behaviour Driven Development Scenario Generation with Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groot, complex gebouw moet bouwen. In de wereld van software is dat een applicatie. Om ervoor te zorgen dat het gebouw veilig is en precies doet wat de bewoners willen, moet je eerst een gedetailleerde lijst met instructies maken: "Als de deur open gaat, moet het licht aangaan. Als het regent, moet het dak dichtgaan."

In de softwarewereld noemen we deze instructies BDD-scenario's (Behaviour-Driven Development). Het zijn de blauwdrukken voor testen. Het probleem is dat het handmatig schrijven van deze blauwdrukken enorm veel tijd kost, vaak fouten bevat en saai is voor de mensen die het moeten doen.

Deze paper onderzoekt of AI (specifiek grote taalmodellen zoals GPT-4, Claude 3 en Gemini) deze saaie, tijdrovende taak kan overnemen. De auteurs hebben gekeken of AI deze instructielijsten net zo goed (of beter) kan schrijven als een menselijke expert.

Hier is een uitleg van de belangrijkste bevindingen, vertaald naar alledaagse taal:

1. De Proef: Een nieuwe keuken

De onderzoekers (van de RMIT Universiteit in Australië) hebben een enorme "keukentest" opgezet. Ze hadden 500 echte recepten (gebruikersverhalen) en de bijbehorende gedetailleerde kookinstructies (vereisten) van vier verschillende softwarebedrijven.

Ze gaven deze recepten aan drie verschillende "AI-koks":

GPT-4 (van OpenAI)
Claude 3 (van Anthropic)
Gemini (van Google)

De taak van deze koks? Schrijf een perfect testscenario op basis van het recept.

2. Wie is de beste kok? (De verrassende uitslag)

Je zou denken dat de bekendste AI (GPT-4) de beste zou zijn. En inderdaad, als je kijkt naar hoe veel woorden de AI precies hetzelfde schrijft als de menselijke voorbeeldtekst (letterlijke overeenkomst), wint GPT-4.

Maar hier komt de verrassing:
Wanneer echte menselijke experts (ervaren testers) de teksten beoordelen op kwaliteit, logische flow en of ze echt bruikbaar zijn, wint Claude 3.

GPT-4 schrijft woorden die lijken op het origineel, maar mist soms de diepgang.
Claude 3 schrijft teksten die menselijker en logischer aanvoelen. Het is alsof GPT-4 een perfecte vertaling maakt, maar Claude 3 de bedoeling begrijpt.

3. De "Chef-kok" die niet proeft (AI als beoordelaar)

Omdat het veel tijd kost om 1500 teksten door mensen te laten beoordelen, dachten de onderzoekers: "Laten we een andere AI vragen om de teksten te beoordelen." Ze gebruikten een model genaamd DeepSeek.
Het resultaat? Deze AI-beoordelaar gaf bijna exact dezelfde oordelen als de menselijke experts. Het is alsof je een zeer ervaren sous-chef hebt die net zo goed kan proeven als de hoofdkok, maar dat in een seconde kan doen voor duizenden borden.

4. Hoe moet je de AI instrueren? (De Prompt-methode)

Niet alle AI's reageren hetzelfde op instructies. Het is net als met kinderen of dieren: sommigen doen het beste als je kort en krachtig zegt wat je wilt, anderen hebben een voorbeeld nodig, en weer anderen moeten stap-voor-stap worden uitgelegd waarom ze iets moeten doen.

GPT-4 is de "snelle leerling": Hij doet het het beste als je hem gewoon de opdracht geeft zonder voorbeelden (Zero-Shot).
Claude 3 is de "denker": Hij doet het iets beter als je hem vraagt om eerst na te denken over de stappen voordat hij schrijft (Chain-of-Thought).
Gemini is de "imitator": Hij doet het het beste als je hem eerst een paar voorbeelden laat zien van hoe het moet (Few-Shot).

5. De kwaliteit van de ingrediënten (Input)

Dit is misschien wel het belangrijkste advies voor bedrijven: Je krijgt er niet meer uit dan je erin stopt.

Als je de AI alleen een korte zin geeft ("Ik wil een knop"), schrijft hij een slecht scenario.
Als je de AI een gedetailleerde beschrijving geeft ("De knop moet blauw zijn, alleen werken als de gebruiker ingelogd is, en een melding tonen als hij faalt"), schrijft hij een uitstekend scenario.
Conclusie: Je kunt de AI niet gebruiken om slechte documentatie te repareren. Je moet eerst zelf de details uitschrijven.

6. De thermostaat (Instellingen)

AI-modellen hebben een "creativiteitsknop" (temperatuur).

Zet je de knop hoog? Dan is de AI creatief, maar ook onvoorspelbaar en soms onzin.
Zet je de knop op 0? Dan is de AI saai, maar perfect consistent.
Voor het schrijven van testinstructies wil je geen creativiteit, je wilt precisie. De onderzoekers ontdekten dat het instellen van de creativiteit op 0 de beste resultaten gaf.

Samenvatting voor de praktijk

Stel je voor dat je een fabriek hebt die auto's bouwt.

De AI is een nieuwe machine die de instructiekaarten voor de monteurs kan schrijven.
Claude 3 schrijft de beste kaarten, maar GPT-4 is ook goed.
Je moet de machine wel goede instructies geven (gedetailleerde eisen), anders maakt hij rommel.
Je moet de machine niet te creatief maken (zet de creativiteit op 0), want je wilt dat elke auto op dezelfde manier wordt gecontroleerd.
Je kunt een andere AI gebruiken om te controleren of de kaarten goed zijn, zodat je niet zelf uren hoeft te lezen.

Het grote nieuws: AI kan nu helpen om het saaie werk van het schrijven van tests te automatiseren, maar het is geen magische knop. Je moet nog steeds weten wat je bouwt en de details goed uitschrijven. Als je dat doet, bespaar je enorm veel tijd en krijg je betere software.

Behaviour Driven Development Scenario Generation with Large Language Models

1. De Proef: Een nieuwe keuken

2. Wie is de beste kok? (De verrassende uitslag)

3. De "Chef-kok" die niet proeft (AI als beoordelaar)

4. Hoe moet je de AI instrueren? (De Prompt-methode)

5. De kwaliteit van de ingrediënten (Input)

6. De thermostaat (Instellingen)

Samenvatting voor de praktijk

Probleemstelling

Methodologie

Belangrijkste Resultaten

Belangrijkste Bijdragen

Betekenis en Implicaties

Behaviour Driven Development Scenario Generation with Large Language Models

1. De Proef: Een nieuwe keuken

2. Wie is de beste kok? (De verrassende uitslag)

3. De "Chef-kok" die niet proeft (AI als beoordelaar)

4. Hoe moet je de AI instrueren? (De Prompt-methode)

5. De kwaliteit van de ingrediënten (Input)

6. De thermostaat (Instellingen)

Samenvatting voor de praktijk

Probleemstelling

Methodologie

Belangrijkste Resultaten

Belangrijkste Bijdragen

Betekenis en Implicaties

Meer zoals dit

Keep Ballots Secret: On the Futility of Social Learning in Decision Making by Voting

Social Teaching: Being Informative vs. Being Right in Sequential Decision Making

Beyond Binomial and Negative Binomial: Adaptation in Bernoulli Parameter Estimation

Homotopy type theory as a language for diagrams of ∞\infty∞-logoses

One is all you need: Second-order Unification without First-order Variables

Homotopy type theory as a language for diagrams of $\infty$ -logoses