OODEval: Evaluating Large Language Models on Object-Oriented Design

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen sehr talentierten, aber noch jungen Assistenten, den Sie „Künstliche Intelligenz" nennen. Dieser Assistent ist fantastisch darin, Code zu schreiben, wie ein Koch, der Rezepte perfekt nachliest. Aber die Forscher aus China wollten wissen: Kann dieser Assistent auch das Rezept selbst erfinden?

Genau darum geht es in dieser Studie namens OODEval.

Hier ist die einfache Erklärung, was die Forscher getan haben und was sie herausgefunden haben, mit ein paar bildhaften Vergleichen:

1. Das Problem: Der fehlende Prüfstein

Bisher haben wir die KI nur auf kleine Aufgaben getestet, wie „Schreib mir eine Funktion, die 2 plus 2 berechnet". Das ist wie zu prüfen, ob ein Koch ein Ei kochen kann. Aber Software-Entwicklung ist mehr als das. Es geht darum, die große Struktur zu planen: Welche Zimmer braucht ein Haus? Wie hängen sie zusammen? Wer macht was? Das nennt man „Objektorientiertes Design" (OOD).

Das Problem war: Es gab keinen standardisierten Test, um zu sehen, ob die KI wirklich gut plant. Es fehlte ein Maßstab, wie ein Lineal für Architekten.

2. Die Lösung: Ein neuer Baukasten (OODEval)

Die Forscher haben sich etwas Cleveres ausgedacht:

Der Test (OODEval): Sie haben 50 verschiedene Bauprojekte erstellt, von einfachen Hütten bis zu riesigen Wolkenkratzern. Jedes Projekt hatte eine Beschreibung (z. B. „Wir brauchen ein System für eine Bibliothek") und eine perfekte Lösung (den Bauplan).
Der menschliche Vergleich (OODEval-Human): Um zu wissen, wie gut die KI wirklich ist, haben sie nicht nur die KI getestet, sondern auch 940 Studenten (die angehenden Architekten). Die Dozenten haben deren Pläne bewertet. So haben sie eine „menschliche Durchschnittsleistung" als Maßstab.
Der neue Maßstab (CLUE): Früher hat man Pläne verglichen, indem man geschaut hat, ob die Wörter übereinstimmen. Das ist wie zu prüfen, ob zwei Bilder die gleiche Farbe haben, ohne auf die Form zu achten. Die Forscher haben einen neuen, intelligenten Scanner namens CLUE entwickelt. Dieser Scanner schaut nicht nur auf die Wörter, sondern versteht die Bedeutung und die Struktur. Er erkennt: „Ah, hier fehlt eine Treppe zwischen dem ersten und zweiten Stock", auch wenn die KI das Wort „Treppe" anders geschrieben hat.

3. Das Experiment: KI vs. Studenten

Die Forscher haben 29 verschiedene KI-Modelle (von kleinen bis zu riesigen) an diesen Tests teilnehmen lassen.

Was sie herausfanden:

Die KI ist ein guter Kopierer, aber ein schlechter Planer: Die KI kann den Code (die Sprache) perfekt schreiben. Sie vergisst fast nie, wo ein Komma hin muss (syntaktische Korrektheit). Aber wenn es darum geht, was gebaut werden soll (die Semantik), macht sie Fehler.
- Vergleich: Die KI kann einen Satz perfekt auf Deutsch schreiben, aber wenn man sie bittet, einen sinnvollen Roman zu planen, verliert sie den Faden.
Wo sie hakt: Die KI ist gut darin, die Namen der Räume zu erfinden (Klassen), aber sie scheitert oft daran, zu sagen, was in diesen Räumen passiert (Methoden) und wie die Räume miteinander verbunden sind (Beziehungen).
Der Vergleich mit Menschen:
- Der durchschnittliche KI-Assistent ist noch deutlich schlechter als der durchschnittliche Student.
- Aber die besten KI-Assistenten (wie Qwen3-Coder-30B) kommen fast an das Niveau des durchschnittlichen Studenten heran. Sie sind also schon sehr gut, aber noch nicht so gut wie die besten menschlichen Architekten.
Größe zählt (aber nicht alles): Größere Modelle sind besser. Modelle, die speziell auf Programmieren trainiert wurden, sind besser als allgemeine Modelle. Und Modelle, die „Anweisungen" bekommen haben, wie sie sich verhalten sollen, schneiden viel besser ab.
- Überraschung: Ein kleiner, lokaler KI-Modell (Gemma3-4B) war besser als ein riesiger, kostenpflichtiger Online-Dienst (GPT-4o Mini). Das zeigt: Man braucht nicht immer den größten Motor, um gut zu fahren.

4. Die häufigsten Fehler

Wenn die KI scheitert, tut sie es auf typische Weise:

Sie vergisst ganze Räume (Klassen fehlen).
Sie vergisst, wie die Räume verbunden sind (Türen fehlen).
Sie halluziniert Dinge, die gar nicht in der Beschreibung standen.

5. Was bedeutet das für uns?

Für die Technik: Wir müssen die KIs besser darin trainieren, komplexe Zusammenhänge zu verstehen, nicht nur Code zu tippen.
Für die Schule: Da die KI jetzt schon so gut ist wie ein durchschnittlicher Student, können Schüler versuchen, Hausaufgaben mit KI zu machen. Lehrer müssen neue Wege finden, um zu prüfen, ob die Schüler wirklich verstehen, was sie tun (z. B. durch mündliche Prüfungen).
Für die Zukunft: Die KI ist ein mächtiges Werkzeug, das uns helfen kann, Software zu entwerfen. Aber sie ist noch kein Ersatz für einen erfahrenen Architekten. Sie ist eher wie ein sehr schneller, aber manchmal etwas zerstreuter Praktikant, den man genau überwachen muss.

Zusammenfassend: Die Studie hat den ersten echten „Führerschein-Test" für KIs im Software-Design entwickelt. Das Ergebnis: Die KIs haben den Führerschein bestanden, aber sie brauchen noch etwas Übung, bevor sie allein komplexe Hochhäuser planen dürfen.

OODEval: Evaluating Large Language Models on Object-Oriented Design

1. Das Problem: Der fehlende Prüfstein

2. Die Lösung: Ein neuer Baukasten (OODEval)

3. Das Experiment: KI vs. Studenten

4. Die häufigsten Fehler

5. Was bedeutet das für uns?

1. Problemstellung

2. Methodik und Neuerungen

A. OODEval Benchmark

B. OODEval-Human Dataset

C. CLUE Metrik (Class Likeness Unified Evaluation)

D. Empirische Studie

3. Wichtige Ergebnisse

RQ1: Gesamtkorrektheit

RQ2: Vergleich mit Menschen

RQ3: Einflussfaktoren des Modells

RQ4: Einfluss der Aufgabenmerkmale

RQ5: Fehleranalyse

4. Bedeutung und Implikationen

Fazit

OODEval: Evaluating Large Language Models on Object-Oriented Design

1. Das Problem: Der fehlende Prüfstein

2. Die Lösung: Ein neuer Baukasten (OODEval)

3. Das Experiment: KI vs. Studenten

4. Die häufigsten Fehler

5. Was bedeutet das für uns?

1. Problemstellung

2. Methodik und Neuerungen

A. OODEval Benchmark

B. OODEval-Human Dataset

C. CLUE Metrik (Class Likeness Unified Evaluation)

D. Empirische Studie

3. Wichtige Ergebnisse

RQ1: Gesamtkorrektheit

RQ2: Vergleich mit Menschen

RQ3: Einflussfaktoren des Modells

RQ4: Einfluss der Aufgabenmerkmale

RQ5: Fehleranalyse

4. Bedeutung und Implikationen

Fazit

Mehr davon

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities