OODEval: Evaluating Large Language Models on Object-Oriented Design

Dit paper introduceert OODEval, een nieuw benchmark en evaluatiemethode om de objectgeoriënteerde ontwerpcapaciteiten van 29 grote taalmodellen te testen, waarbij wordt geconcludeerd dat hoewel deze modellen syntactisch nauwkeurig zijn, ze nog aanzienlijke semantische tekortkomingen vertonen en significant onder de prestaties van de beste menselijke ontwerpers blijven.

Bingxu Xiao, Yunwei Dong, Yiqi Tang, Manqing Zhang, Yifan Zhou, Chunyan Ma, Yepang Liu

Gepubliceerd Thu, 12 Ma
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groot, complex gebouw wilt bouwen. Je hebt een tekening nodig van de architect: waar komen de muren, de deuren, de trappen en de leidingen? In de softwarewereld heet dit Object-Oriented Design (OOD). Het is het plan voor hoe een computerprogramma in elkaar zit.

De afgelopen jaren zijn er slimme computers (Large Language Models of LLM's) gekomen die tekst kunnen schrijven en zelfs code kunnen genereren. Maar de vraag was: kunnen deze computers ook een goed architectenplan maken?

Dit onderzoek, genaamd OODEval, is als een strenge maar eerlijke examencommissie die 29 verschillende "AI-architecten" op de proef stelt. Hier is wat ze hebben ontdekt, vertaald in simpele taal:

1. De Nieuwe Examenmap (OODEval)

Voorheen was het moeilijk om AI's te testen op ontwerp, omdat er geen standaard "examenvragen" waren. Het was alsof je leerlingen een wiskundetoets liet maken, maar elke leraar zijn eigen, willekeurige sommen bedacht.

  • Wat deden ze? De onderzoekers maakten een nieuwe, gestandaardiseerde examenmap met 50 verschillende ontwerpopdrachten.
  • De moeilijkheidsgraad: Er zijn eenvoudige huisjes (simpele taken), middelgrote appartementen (moderate) en enorme wolkenkrabbers (hard).
  • De menselijke controlegroep: Ze verzamelden ook 940 ontwerpen van echte studenten, die door docenten waren beoordeeld. Dit is als het hebben van een "ideale oplossing" en een "gemiddelde student" om de AI mee te vergelijken.

2. De Nieuwe Meetlat (CLUE)

Hoe meet je of een ontworpen gebouw goed is? Je kunt niet gewoon kijken of de muren er zijn; je moet ook kijken of de deuren op de juiste plek zitten en of de leidingen logisch lopen.

  • Het probleem: Oude meetmethodes keken alleen of de woorden hetzelfde waren (zoals een spellingcontrole). Maar in een ontwerp telt de structuur en de betekenis meer dan de woorden.
  • De oplossing: Ze bedachten CLUE. Dit is een slimme meetlat die niet alleen kijkt of de muren er zijn, maar ook of de architect de juiste verbanden heeft gelegd tussen de kamers. Het vergelijkt het AI-ontwerp met het menselijke voorbeeld en geeft een score.

3. Wat bleek er uit het examen?

De AI's zijn goed in de "spelling", maar slecht in de "logica"
De AI's konden perfect de juiste code schrijven (de muren stonden netjes op hun plek), maar ze maakten vaak fouten in de logica.

  • Vergelijking: Het is alsof een AI een perfect geschreven recept kan maken, maar vergeet dat je de eieren eerst moet kloppen voordat je ze in de pan doet. Ze weten wat er moet gebeuren, maar niet altijd hoe het samenwerkt.
  • Ze waren goed in het bedenken van namen voor kamers (klassen), maar faalden vaak bij het bedenken van wat er in die kamers moet gebeuren (methoden) en hoe de kamers met elkaar verbonden zijn.

AI vs. De Gemiddelde Student

  • De gemiddelde AI doet het slechter dan de gemiddelde student. Ze maken te veel logische fouten.
  • De beste AI's (zoals Qwen3-Coder-30B) doen het echter bijna net zo goed als de gemiddelde student. Ze kunnen een heel goed plan maken.
  • Maar... zelfs de slimste AI kan nog niet tippen aan de beste menselijke experts. De topstudenten maken nog steeds de meest creatieve en foutloze ontwerpen.

Welke AI's zijn de slimste?

  • Qwen3-Coder-30B: Deze lokale AI (die je op je eigen computer kunt draaien) was de winnaar. Hij was het meest betrouwbaar.
  • Gemma3-4B-IT: Een heel klein model dat verrassend goed deed, zelfs beter dan de dure, kleine versie van GPT-4. Dit bewijst dat je niet altijd een gigantische computer nodig hebt voor goed werk.
  • DeepSeek en GPT: Deze bekende namen deden het ook goed, maar waren soms wat minder consistent dan de winnaars.

4. Waarom maken ze fouten?

De onderzoekers ontdekten dat de AI's het moeilijk hebben als:

  • Het gebouw te groot wordt (te veel kamers).
  • Er te veel complexe verbindingen zijn (te veel leidingen).
  • De opdracht in de tekst moeilijk te lezen is.

Het lijkt erop dat de AI's het overzicht verliezen als het te complex wordt. Ze kunnen de "grote lijnen" niet goed vasthouden.

5. Wat betekent dit voor ons?

  • Voor bedrijven: Je kunt AI nu al gebruiken om een eerste ontwerp te maken, maar je moet het altijd controleren door een mens. De AI is een goede assistent, maar nog geen meester-architect.
  • Voor scholen: Dit is een waarschuwing voor leraren. Omdat AI's nu ontwerpen kunnen maken die net zo goed zijn als die van een gemiddelde student, kunnen studenten hun huiswerk laten doen door de AI. Scholen moeten nieuwe manieren vinden om te testen of studenten het echt zelf hebben gedaan (bijvoorbeeld door mondelinge verdedigingen).
  • Voor de toekomst: AI's moeten nog leren om de "betekenis" van een ontwerp beter te begrijpen, niet alleen de woorden.

Kortom: De AI's zijn begonnen met het tekenen van blauwdrukken, en ze doen het verrassend goed. Maar ze zijn nog niet klaar om zelfstandig een stad te bouwen zonder dat er een menselijke architect naast staat om de plannen te controleren.