Class Model Generation from Requirements using Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Samenvatting: Hoe AI helpt bij het tekenen van blauwdrukken voor software

Stel je voor dat je een groot huis wilt bouwen. Je hebt een lijst met wensen (bijvoorbeeld: "Ik wil een grote keuken die uitkijkt op de tuin" of "De slaapkamers moeten naast elkaar liggen"). Dit zijn je eisen.

Vroeger moest een menselijke architect deze lijst lezen en vervolgensurenlang een gedetailleerde blauwdruk (in de softwarewereld een "UML-class diagram") tekenen. Dit is lastig, tijdrovend en als je de taal van de architect niet goed begrijpt, kan het huis er heel anders uitzien dan je had bedacht.

Deze paper onderzoekt of Grote Taalmodellen (LLMs) – slimme AI's zoals GPT-5 – deze taak kunnen overnemen. Kunnen ze jouw wensenlijst lezen en direct een perfecte blauwdruk maken? En nog belangrijker: kunnen ze ook zelf beoordelen of die blauwdruk goed is, zonder dat er een mens naar hoeft te kijken?

Hier is hoe het onderzoek in elkaar zit, vertaald in alledaagse taal:

1. De Proef: De AI als Architect

De onderzoekers gaven acht verschillende sets wensen aan vier verschillende AI's (GPT-5, Claude, Gemini en Llama). De wensen varieerden van "een afvalrecyclingsysteem" tot "een pacemaker voor het hart".

De Opdracht: De AI's moesten de wensen lezen en omzetten in een PlantUML-code (een soort tekstuele blauwdruk die computers kunnen omzetten in een plaatje).
De Methode: Ze gebruikten een slimme truc: ze gaven de AI's een stap-voor-stap instructie (een "Chain of Thought"). Net als een mens die eerst nadenkt over de kamers, dan de deuren en tenslotte de leidingen, moest de AI eerst de onderdelen uit de tekst halen voordat hij de tekening maakte.

Het Resultaat:
De AI's waren verrassend goed! Ze konden de kernideeën uit de tekst halen en een logische blauwdruk maken. De beste AI (GPT-5) deed het het beste, maar zelfs de andere modellen leverden werk dat vaak bruikbaar was.

2. De Beoordeling: De AI als Juf

Nu kwam het lastige deel: hoe weet je of de blauwdruk goed is, als er geen "juiste antwoord" bestaat?

In plaats van alleen maar te vertrouwen op mensen, gebruikten de onderzoekers twee andere AI's (Grok en Mistral) als juryleden.

De Taak: Deze jury-AI's kregen twee blauwdrukken van verschillende modellen en moesten zeggen: "Welke is beter?"
De Criteria: Ze keken naar vijf dingen:
1. Volledigheid: Zijn alle kamers (onderdelen) erbij?
2. Correctheid: Sluiten de deuren (verbindingen) logisch aan?
3. Regels: Is het volgens de bouwvoorschriften (UML-standaarden)?
4. Duidelijkheid: Is het plaatje makkelijk te begrijpen?
5. Woordkeuze: Gebruiken ze dezelfde woorden als in de wensenlijst?

Het Resultaat:
De twee jury-AI's waren het bijna altijd met elkaar eens! Ze konden goed zien welk model de beste blauwdrukken maakte. Dit betekent dat AI's niet alleen kunnen maken, maar ook betrouwbaar kunnen beoordelen.

3. De Menselijke Check: De Expert

Om zeker te weten dat de AI-jury niet in de war was, vroegen ze twee echte menselijke experts (software-architecten) om dezelfde blauwdrukken te beoordelen.

De Vergelijking: De onderzoekers keken of de AI-jury hetzelfde oordeelde als de menselijke experts.
Het Resultaat: Het was een enorme overeenkomst! De AI's en de mensen gaven bijna dezelfde scores. Waar de mensen vonden dat een blauwdruk "goed" was, vond de AI dat ook. Waar de mensen een fout zagen, zag de AI die ook.

De Grootste Les: Een Team van Mens en Machine

Deze studie laat zien dat we een nieuwe manier van werken kunnen hebben:

De AI doet het zware werk: Het maakt de eerste blauwdruk en doet de eerste controle. Dit bespaart enorm veel tijd.
De Mens doet de finale check: Voor complexe situaties (zoals een pacemaker) kijkt de mens nog even snel na om zeker te zijn.

Conclusie in één zin:
AI's kunnen nu niet alleen de "tekenaar" zijn die de blauwdruk maakt, maar ook de "kwaliteitscontroleur" die zegt of het goed is, en ze doen dit bijna net zo goed als een menselijke expert. Dit maakt het bouwen van software sneller en toegankelijker voor iedereen, niet alleen voor technische specialisten.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Class Model Generation from Requirements using Large Language Models", geschreven in het Nederlands.

Probleemstelling

Het creëren van gedetailleerde UML-klassediagrammen uit natuurlijke taal (NL) requirements is een cruciale maar arbeidsintensieve fase in de software-engineering. Traditioneel vereist dit proces aanzienlijke manuele inspanning en domeinexpertise, wat vaak leidt tot misverstanden tussen requirements-engineers en stakeholders. Hoewel Generatieve AI (GenAI) en Large Language Models (LLM's) potentieel hebben om dit proces te automatiseren, blijft de vraag open of LLM's niet alleen hoogwaardige diagrammen kunnen genereren, maar ook betrouwbaar kunnen fungeren als beoordelaars van deze gegenereerde modellen, vooral in scenario's waar geen "ground truth" (referentiemodel) beschikbaar is.

Methodologie

De auteurs hebben een uitgebreid onderzoek opgezet om de prestaties van state-of-the-art LLM's te evalueren in zowel generatie als evaluatie.

1. Dataverzameling:
Er zijn acht heterogene datasets gebruikt, afkomstig uit verschillende domeinen (zoals data management, recycling, gezondheidszorg, en medische apparaten). Deze datasets bevatten zowel "user stories" als formele "shall"-requirements.

2. Generatie van Modellen:
Vier LLM's werden getest op hun vermogen om PlantUML-klassediagrammen te genereren vanuit de NL-requirements:

GPT-5
Claude Sonnet 4.0
Gemini 2.5 Flash Thinking
Llama-3.1-8B-Instruct

De modellen gebruikten Chain-of-Thought (CoT) prompting om stap voor stap domeinentiteiten, attributen, associaties en multipliciteiten te extraheren voordat de PlantUML-code werd gegenereerd.

3. Evaluatie Framework (Dual-Validation):
Om de kwaliteit te meten zonder ground truth, werd een dubbel-validatieframework toegepast:

LLM-as-a-Judge: Twee onafhankelijke LLM's (Grok en Mistral Small 3.1) fungeerden als beoordelaars. Ze voerden gestructureerde paarwijze vergelijkingen uit op basis van vijf kwaliteitsdimensies:
1. Volledigheid (Completeness)
2. Correctheid (Correctness)
3. Conformiteit aan standaarden (Adherence to standards)
4. Begrijpelijkheid (Comprehensibility)
5. Terminologische uitlijning (Terminological alignment)
Human-in-the-Loop (HITL): Twee onafhankelijke menselijke experts (met een achtergrond in software-engineering) beoordeelden de beste gegenereerde modellen (uit de LLM-vergelijking) met dezelfde rubriek om de betrouwbaarheid van de LLM-beoordelaars te valideren.

4. Statistische Analyse:
De auteurs gebruikten diverse statistische maatstaven om overeenstemming en significantie te meten:

Spearman rangcorrelatie ( $\rho$ ): Om de rangorde-overeenstemming tussen de twee LLM-beoordelaars te meten.
Cohen's Kappa ( $\kappa$ ): Om categorische overeenstemming (aanvaardbaar vs. niet-aanvaardbaar) te meten tussen beoordelaars.
Cohen's d: Om de effectgrootte (de mate van verschil) tussen de scores van verschillende beoordelaars te kwantificeren.
Wilcoxon signed-rank test: Om te verifiëren of de scores significant afwijken van een neutrale drempelwaarde.

Belangrijkste Bijdragen

Uitgebreide Vergelijking: Een systematische evaluatie van vier top-LLM's voor UML-generatie over acht diverse datasets.
Validatie van LLM-as-a-Judge: Het bewijs dat LLM's niet alleen modellen kunnen genereren, maar ook betrouwbaar kunnen fungeren als onafhankelijke beoordelaars, zelfs zonder ground truth.
Dual-Validation Framework: Een nieuwe aanpak die LLM-beoordeling combineert met menselijke expertevaluatie om de betrouwbaarheid van geautomatiseerde workflows te valideren.
Openbare Artefacten: De dataset en prompts zijn beschikbaar gesteld voor reproduceerbaarheid.

Resultaten

Generatieprestaties: GPT-5 presteerde consequent het beste, gevolgd door Claude Sonnet 4.0. Gemini en Llama scoorden lager. GPT-5 slaagde erin om structureel coherente en semantisch betekenisvolle diagrammen te genereren die sterk overeenkwamen met menselijke verwachtingen.
Overeenstemming tussen LLM-beoordelaars: De twee LLM-judges (Grok en Mistral) toonden een hoge mate van overeenstemming. De Spearman-correlatie was zeer hoog ( $\rho$ tussen 0,8 en 1,0) voor 7 van de 8 datasets. De Cohen's Kappa was 0,773, wat wijst op een substantiële overeenstemming.
Overeenstemming met Menselijke Experts: Er was een sterke uitlijning tussen de LLM-beoordelingen en de menselijke expertbeoordelingen.
- Menselijke experts toonden ook substantiële onderlinge overeenstemming ( $\kappa = 0,684$ ).
- De correlatie tussen de geaggregeerde LLM-oordele en de menselijke oordelen resulteerde in een Cohen's Kappa van 0,722.
- De gemiddelde scores voor criteria zoals terminologische uitlijning en begrijpelijkheid waren bijna identiek tussen LLM's en mensen.
Uitzonderingen: De dataset "Pacemaker" (medische apparatuur) toonde lagere correlaties, wat suggereert dat hoge domeincomplexiteit en specifieke nuances nog steeds een uitdaging vormen. Ook het criterium "begrijpelijkheid" vertoonde grotere variabiliteit (grote effectgrootte), wat wijst op subjectiviteit in interpretatie.

Betekenis en Conclusie

Dit onderzoek demonstreert dat LLM's een praktische en betrouwbare rol kunnen spelen in de vereistenengineering (RE) voor softwareontwerp. De belangrijkste bevindingen zijn:

Betrouwbaarheid: LLM's kunnen UML-klassediagrammen genereren die structureel en semantisch voldoen aan de eisen, en ze kunnen deze kwaliteit ook zelfstandig beoordelen.
Human-AI Collaboratie: De resultaten ondersteunen een hybride workflow waarbij LLM's de initiële generatie en screening van diagrammen uitvoeren, terwijl menselijke experts zich richten op de finalisatie en validatie van complexe, domeinspecifieke modellen.
Schaalbaarheid: Het gebruik van "LLM-as-a-Judge" biedt een schaalbare oplossing voor het evalueren van gegenereerde softwareartefacten, wat de afhankelijkheid van dure menselijke experttijd vermindert zonder in te leveren op kwaliteit.

De studie concludeert dat, hoewel domeincomplexiteit nog uitdagingen biedt, LLM-gedreven automatisering van UML-generatie en -evaluatie een haalbare en waardevolle stap is voor de toekomst van software-engineering.

Class Model Generation from Requirements using Large Language Models

1. De Proef: De AI als Architect

2. De Beoordeling: De AI als Juf

3. De Menselijke Check: De Expert

De Grootste Les: Een Team van Mens en Machine

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities