Class Model Generation from Requirements using Large Language Models

Dit onderzoek toont aan dat geavanceerde Large Language Models, ondersteund door een dubbele validatieframework, effectief kunnen worden ingezet om automatisch UML-klassediagrammen te genereren uit natuurlijke taalvereisten en deze modellen betrouwbaar te evalueren.

Jackson Nguyen, Rui En Koe, Fanyu Wang, Chetan Arora, Alessio Ferrari

Gepubliceerd Wed, 11 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Samenvatting: Hoe AI helpt bij het tekenen van blauwdrukken voor software

Stel je voor dat je een groot huis wilt bouwen. Je hebt een lijst met wensen (bijvoorbeeld: "Ik wil een grote keuken die uitkijkt op de tuin" of "De slaapkamers moeten naast elkaar liggen"). Dit zijn je eisen.

Vroeger moest een menselijke architect deze lijst lezen en vervolgensurenlang een gedetailleerde blauwdruk (in de softwarewereld een "UML-class diagram") tekenen. Dit is lastig, tijdrovend en als je de taal van de architect niet goed begrijpt, kan het huis er heel anders uitzien dan je had bedacht.

Deze paper onderzoekt of Grote Taalmodellen (LLMs) – slimme AI's zoals GPT-5 – deze taak kunnen overnemen. Kunnen ze jouw wensenlijst lezen en direct een perfecte blauwdruk maken? En nog belangrijker: kunnen ze ook zelf beoordelen of die blauwdruk goed is, zonder dat er een mens naar hoeft te kijken?

Hier is hoe het onderzoek in elkaar zit, vertaald in alledaagse taal:

1. De Proef: De AI als Architect

De onderzoekers gaven acht verschillende sets wensen aan vier verschillende AI's (GPT-5, Claude, Gemini en Llama). De wensen varieerden van "een afvalrecyclingsysteem" tot "een pacemaker voor het hart".

  • De Opdracht: De AI's moesten de wensen lezen en omzetten in een PlantUML-code (een soort tekstuele blauwdruk die computers kunnen omzetten in een plaatje).
  • De Methode: Ze gebruikten een slimme truc: ze gaven de AI's een stap-voor-stap instructie (een "Chain of Thought"). Net als een mens die eerst nadenkt over de kamers, dan de deuren en tenslotte de leidingen, moest de AI eerst de onderdelen uit de tekst halen voordat hij de tekening maakte.

Het Resultaat:
De AI's waren verrassend goed! Ze konden de kernideeën uit de tekst halen en een logische blauwdruk maken. De beste AI (GPT-5) deed het het beste, maar zelfs de andere modellen leverden werk dat vaak bruikbaar was.

2. De Beoordeling: De AI als Juf

Nu kwam het lastige deel: hoe weet je of de blauwdruk goed is, als er geen "juiste antwoord" bestaat?

In plaats van alleen maar te vertrouwen op mensen, gebruikten de onderzoekers twee andere AI's (Grok en Mistral) als juryleden.

  • De Taak: Deze jury-AI's kregen twee blauwdrukken van verschillende modellen en moesten zeggen: "Welke is beter?"
  • De Criteria: Ze keken naar vijf dingen:
    1. Volledigheid: Zijn alle kamers (onderdelen) erbij?
    2. Correctheid: Sluiten de deuren (verbindingen) logisch aan?
    3. Regels: Is het volgens de bouwvoorschriften (UML-standaarden)?
    4. Duidelijkheid: Is het plaatje makkelijk te begrijpen?
    5. Woordkeuze: Gebruiken ze dezelfde woorden als in de wensenlijst?

Het Resultaat:
De twee jury-AI's waren het bijna altijd met elkaar eens! Ze konden goed zien welk model de beste blauwdrukken maakte. Dit betekent dat AI's niet alleen kunnen maken, maar ook betrouwbaar kunnen beoordelen.

3. De Menselijke Check: De Expert

Om zeker te weten dat de AI-jury niet in de war was, vroegen ze twee echte menselijke experts (software-architecten) om dezelfde blauwdrukken te beoordelen.

  • De Vergelijking: De onderzoekers keken of de AI-jury hetzelfde oordeelde als de menselijke experts.
  • Het Resultaat: Het was een enorme overeenkomst! De AI's en de mensen gaven bijna dezelfde scores. Waar de mensen vonden dat een blauwdruk "goed" was, vond de AI dat ook. Waar de mensen een fout zagen, zag de AI die ook.

De Grootste Les: Een Team van Mens en Machine

Deze studie laat zien dat we een nieuwe manier van werken kunnen hebben:

  1. De AI doet het zware werk: Het maakt de eerste blauwdruk en doet de eerste controle. Dit bespaart enorm veel tijd.
  2. De Mens doet de finale check: Voor complexe situaties (zoals een pacemaker) kijkt de mens nog even snel na om zeker te zijn.

Conclusie in één zin:
AI's kunnen nu niet alleen de "tekenaar" zijn die de blauwdruk maakt, maar ook de "kwaliteitscontroleur" die zegt of het goed is, en ze doen dit bijna net zo goed als een menselijke expert. Dit maakt het bouwen van software sneller en toegankelijker voor iedereen, niet alleen voor technische specialisten.