Class Model Generation from Requirements using Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie möchten ein riesiges, komplexes Gebäude bauen. Bevor der erste Stein gelegt wird, brauchen Architekten einen genauen Bauplan. In der Softwareentwicklung ist dieser Bauplan das sogenannte UML-Klassendiagramm. Es zeigt, welche "Teile" (Klassen) das Programm hat, wie sie miteinander verbunden sind und was sie tun können.

Früher mussten Menschen stundenlang Texte lesen (die "Anforderungen") und mühsam diese Baupläne von Hand zeichnen. Das ist anstrengend, fehleranfällig und langweilig.

Diese Forschungsarbeit fragt sich nun: Können die neuen, super-intelligenten KI-Sprachmodelle (wie GPT-5 oder Claude) diese Baupläne automatisch aus den Texten erstellen? Und können sie sogar selbst beurteilen, ob ein anderer Bauplan gut oder schlecht ist?

Hier ist die Geschichte der Studie, einfach erklärt:

1. Die Helden: Die KI-Architekten

Die Forscher haben vier verschiedene "KI-Architekten" getestet:

GPT-5 (der Star des Teams)
Claude Sonnet 4.0 (der Zweitbeste)
Gemini 2.5 (der Mittelmäßige)
Llama (der, der noch viel lernen muss)

Ihre Aufgabe war es, aus acht verschiedenen Texten (z. B. über ein Recycling-System, einen Herzschrittmacher oder ein Camping-System) automatisch den passenden Software-Bauplan zu zeichnen.

Das Ergebnis: Die KIs waren überraschend gut! Sie konnten die wichtigsten Teile erkennen und den Plan fast perfekt erstellen. GPT-5 war dabei der unangefochtene Gewinner, der die saubersten und logischsten Pläne lieferte.

2. Das Problem: Wer prüft die Arbeit?

Normalerweise müsste ein menschlicher Experte nachschauen: "Ist dieser Plan korrekt? Fehlen Teile?" Aber das kostet Zeit und Geld. Was, wenn die KI auch den Prüfer spielt?

Die Forscher haben sich einen cleveren Trick ausgedacht: Sie haben zwei weitere KIs (nennen wir sie Grok und Mistral) als unabhängige Gutachter eingesetzt. Diese sollten sich die Pläne der vier Architekten ansehen und sagen: "Wer hat den besten Plan gezeichnet?"

Die Analogie: Stellen Sie sich vor, Sie haben vier Schüler, die einen Aufsatz schreiben. Zwei andere Schüler (die Gutachter) sollen dann bewerten, wer den besten Aufsatz geschrieben hat, ohne dass ein Lehrer dabei ist.

3. Der große Test: KI gegen Mensch

Um sicherzugehen, dass die KI-Gutachter nicht nur "Blödsinn" reden, haben die Forscher echte menschliche Experten hinzugezogen. Diese Experten haben die besten Pläne (die von GPT-5) ebenfalls bewertet.

Das Ergebnis war verblüffend:

Die KI-Gutachter und die menschlichen Experten waren sich sehr ähnlich. Sie haben fast die gleichen Pläne als "gut" oder "schlecht" eingestuft.
Die KIs waren sogar so gut, dass sie die Qualität der Pläne fast genauso genau einschätzen konnten wie die Menschen.
Es gab nur kleine Unterschiede: Die KIs waren manchmal etwas strenger bei der "Lesbarkeit" (wie klar der Plan ist), aber bei der technischen Korrektheit waren sie auf Augenhöhe mit den Menschen.

4. Was bedeutet das für uns?

Stellen Sie sich vor, Sie sind ein Chef, der ein neues Software-System braucht. Früher mussten Sie einen teuren Architekten einstellen, der Wochen lang Pläne zeichnet.

Mit dieser neuen Methode sieht es so aus:

Sie geben dem KI-Architekten (GPT-5) Ihre Anforderungen.
In wenigen Sekunden hat er den Bauplan erstellt.
Ein KI-Gutachter schaut sofort drüber und sagt: "Der Plan ist zu 95 % perfekt, hier sind noch zwei kleine Fehler."
Erst wenn es um sehr spezielle, komplexe Details geht, holt der Mensch den Stift raus, um den Feinschliff zu machen.

Fazit

Die Studie zeigt, dass wir bald nicht mehr alles selbst machen müssen. Die KI kann nicht nur bauen, sondern auch beurteilen. Sie ist wie ein sehr fleißiger, gut ausgebildeter Praktikant, der die schwere Arbeit macht und die ersten Entwürfe prüft. Der menschliche Experte muss dann nur noch die wichtigsten Entscheidungen treffen.

Das spart Zeit, Geld und Nerven – und macht Softwareentwicklung für alle zugänglicher, auch für Leute, die keine Experten sind. Die Zukunft der Softwareentwicklung ist also eine Teamarbeit zwischen Mensch und Maschine.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Class Model Generation from Requirements using Large Language Models" auf Deutsch:

1. Problemstellung

Die Erstellung von UML-Klassendiagrammen aus natürlichen Sprachanforderungen (Natural Language, NL) ist ein kritischer, aber ressourcenintensiver Schritt im Requirements Engineering (RE). Traditionell erfordert dieser Prozess erheblichen manuellen Aufwand und tiefes Domänenwissen, was zu Missverständnissen zwischen Anforderungsingenieuren und Stakeholdern führen kann.

Zwar bieten Generative KI (GenAI) und Large Language Models (LLMs) das Potenzial, diesen Prozess zu automatisieren, doch gibt es zwei zentrale, bisher unzureichend untersuchte Fragen:

Generierung: Können LLMs qualitativ hochwertige und korrekte UML-Klassendiagramme aus NL-Anforderungen generieren?
Evaluation: Können LLMs diese generierten Modelle auch zuverlässig bewerten, insbesondere wenn keine „Ground Truth" (Referenzmodelle) vorhanden ist?

Das Ziel der Studie ist es, die Fähigkeiten moderner LLMs sowohl in der Generierung als auch in der automatisierten Evaluation zu untersuchen und die Zuverlässigkeit von LLMs als „Richter" (Judges) im Vergleich zu menschlichen Experten zu validieren.

2. Methodik

Die Forschung folgt einem umfassenden Dual-Validierungsansatz, der die „LLM-as-a-Judge"-Methode mit einer „Human-in-the-Loop"-Bewertung kombiniert.

Datensätze und Modelle:

Daten: Es wurden acht heterogene Datensätze aus verschiedenen Domänen (z. B. Cyber-Physical Systems, Gesundheitswesen, Recycling, Inventarverwaltung) verwendet. Diese umfassen sowohl User Stories als auch „Shall"-Anforderungen.
Generatoren: Vier state-of-the-art LLMs wurden getestet: GPT-5, Claude Sonnet 4.0, Gemini 2.5 Flash Thinking und Llama-3.1-8B-Instruct.
Bewerter (Judges): Für die automatische Bewertung wurden zwei unabhängige LLMs eingesetzt: Grok und Mistral Small 3.1 24B.

Prozessablauf:

Generierung (RQ1): Die vier Generator-LLMs wurden mittels Chain-of-Thought-Prompting angewiesen, aus den NL-Anforderungen Domänenentitäten, Attribute und Assoziationen zu extrahieren und daraus PlantUML-Code zu generieren.
Pairwise Evaluation (RQ1): Grok und Mistral führten strukturierte Paarvergleiche der generierten Diagramme durch. Sie bewerteten diese nach fünf Qualitätsdimensionen auf einer Skala von 1–5:
- Vollständigkeit (Completeness)
- Korrektheit (Correctness)
- Konformität zu Standards (Adherence to standards)
- Verständlichkeit (Comprehensibility)
- Terminologische Ausrichtung (Terminological alignment)
Human-in-the-Loop (RQ2): Zwei menschliche Experten (Software-Architekten) bewerteten die besten Ergebnisse (basierend auf RQ1) mit demselben Rubrik. Dies diente als Ground-Truth-Referenz für die Validierung der LLM-Bewertungen.

Statistische Analyse:
Um die Übereinstimmung zu quantifizieren, wurden folgende Metriken verwendet:

Spearman-Rangkorrelation ( $\rho$ ): Zur Messung der Konsistenz in den Rangfolgen zwischen den beiden LLM-Richtern.
Cohens Kappa ( $\kappa$ ): Zur Messung der kategorialen Übereinstimmung (akzeptabel vs. nicht akzeptabel).
Cohens d: Zur Quantifizierung der Effektstärke (Größe der Unterschiede) zwischen den Bewertungen.
Statistische Signifikanztests: Wilcoxon-Vorzeichen-Rang-Test und t-Tests zur Überprüfung, ob die Scores signifikant über dem Neutralwert liegen.

3. Wichtige Beiträge

Umfassender Vergleich von LLM-Generatoren: Die Studie liefert empirische Daten darüber, welche aktuellen LLMs am besten geeignet sind, UML-Strukturen aus Text zu extrahieren.
Validierung des „LLM-as-a-Judge"-Ansatzes im RE: Es wird gezeigt, dass LLMs nicht nur generieren, sondern auch als zuverlässige Evaluatoren fungieren können, wenn sie durch strukturierte Prompts und klare Rubriken geleitet werden.
Dual-Validierungs-Framework: Die Kombination aus automatisierten Paarvergleichen und menschlicher Expertise bietet einen robusten Ansatz zur Bewertung von KI-generierten Artefakten ohne Ground Truth.
Quantitative Metriken für die Übereinstimmung: Die Studie liefert konkrete statistische Belege (Kappa, Spearman, Effektstärken) für die Korrelation zwischen KI-Bewertungen und menschlicher Expertise.

4. Ergebnisse

Generierung (RQ1):

Leistung der Modelle: GPT-5 erzielte konsistent die besten Ergebnisse und rangierte in allen acht Datensätzen an erster oder zweiter Stelle. Claude Sonnet 4.0 folgte auf Platz zwei. Gemini und Llama schnitten schlechter ab, wobei Llama durchgehend den letzten Platz belegte.
Qualität: Die generierten Diagramme waren strukturell kohärent und semantisch sinnvoll. Hauptfehler traten bei Assoziationen, Multiplizitäten und in komplexen Domänen (z. B. Pacemaker-Datensatz) auf.
Konsistenz der Richter: Die beiden LLM-Richter (Grok und Mistral) zeigten eine starke Übereinstimmung. Die Spearman-Korrelation lag bei 7 von 8 Datensätzen zwischen 0,8 und 1,0. Der Kappa-Wert betrug 0,773, was eine substanzielle Übereinstimmung darstellt.

Evaluation und menschliche Übereinstimmung (RQ2):

Menschliche Bewertung: Die menschlichen Experten bewerteten die von GPT-5 generierten Diagramme ebenfalls als hochwertig (Signifikanz über dem Neutralwert). Die inter-rater-Übereinstimmung zwischen den beiden Experten lag bei $\kappa = 0,684$ .
Alignment LLM vs. Mensch: Es wurde eine starke Übereinstimmung zwischen den LLM-Richtern und den menschlichen Experten festgestellt ( $\kappa = 0,722$ $κ = 0, 722$ ).
- Die LLMs bewerteten Kriterien wie Vollständigkeit und Korrektheit tendenziell etwas höher als die Menschen, zeigten aber bei Terminologie und Verständlichkeit eine fast identische Bewertung.
- Die Effektstärken (Cohens d) waren für die meisten Kriterien klein bis mittel, was auf eine hohe praktische Übereinstimmung hindeutet.
- Größere Abweichungen zeigten sich bei subjektiven Kriterien wie „Verständlichkeit" ( $d = 0,86$ ), was auf Interpretationsspielräume hinweist.

5. Bedeutung und Fazit

Die Studie demonstriert, dass LLMs in der Lage sind, sowohl UML-Klassendiagramme aus Anforderungen zu generieren als auch deren Qualität zuverlässig zu bewerten.

Praktische Implikationen: Das vorgeschlagene Framework ermöglicht einen hybriden Workflow, bei dem LLMs die initiale Generierung und Vorab-Bewertung übernehmen, während menschliche Experten nur noch für die finale Validierung komplexer oder domänenspezifischer Modelle eingreifen. Dies reduziert den manuellen Aufwand erheblich.
Vertrauen in KI: Die hohe Korrelation zwischen LLM-Bewertungen und menschlicher Expertise stärkt das Vertrauen in automatisierte Evaluierungsansätze im Requirements Engineering.
Einschränkungen: Die Ergebnisse sind spezifisch für die getesteten Modellversionen und Datensätze. Komplexe Domänen (wie medizinische Geräte) stellen weiterhin eine Herausforderung dar, und subjektive Kriterien erfordern weiterhin menschliche Feinabstimmung.

Zusammenfassend bietet die Arbeit einen reproduzierbaren Rahmen für die Automatisierung von Modellierungsprozessen und unterstreicht das Potenzial von KI als Assistent und Evaluierer in der Softwareentwicklung.

Class Model Generation from Requirements using Large Language Models

1. Die Helden: Die KI-Architekten

2. Das Problem: Wer prüft die Arbeit?

3. Der große Test: KI gegen Mensch

4. Was bedeutet das für uns?

Fazit

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Network Slicing in 5G Mobile Communication Architecture, Profit Modeling, and Challenges

Pwned: How Often Are Americans' Online Accounts Breached?

Excess demand in public transportation systems: The case of Pittsburgh's Port Authority

Implicit Biases in Refereeing: Lessons from NBA Referees

BOPIM: Bayesian Optimization for influence maximization on temporal networks