Software Development Life Cycle Perspective: A Survey of Benchmarks for Code Large Language Models and Agents

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een gigantische, moderne fabriek bouwt. In het verleden deden mensen dit met hamer en nagel, stap voor stap. Vandaag de dag hebben we echter een nieuwe soort arbeider: de AI-coder. Dit zijn slimme computerprogramma's (zoals GitHub Copilot) die niet alleen code kunnen schrijven, maar ook kunnen nadenken, fouten vinden en zelfs hele software-projecten kunnen beheren.

Deze "AI-coders" worden steeds slimmer, maar hoe weten we of ze echt goed zijn? Dat is waar dit onderzoek over gaat. De auteurs van dit paper hebben een enorme inventarisatie gemaakt van 178 verschillende tests (benchmarks) die gebruikt worden om deze AI's te beoordelen.

Hier is de samenvatting in simpele taal, met een paar creatieve vergelijkingen:

1. Het Grote Ontwerp: De Bouwplaat van Software

Software maken is als het bouwen van een huis. Het proces heet de Software Development Life Cycle (SDLC). Het begint met het idee (wat willen we bouwen?), gaat door het ontwerp (tekeningen maken), de bouw (de muren opzetten), het testen (is het stevig?) en het onderhoud (reparaties doen als er iets kapot gaat).

De onderzoekers keken naar alle tests die er zijn om te zien of ze de AI's op alle deze stappen testen.

2. Het Grote Probleem: Een Scheef Gebouwd Huis

Wat ontdekten ze? De tests zijn enorm scheef.

61% van alle tests focust alleen op het bouwen (het schrijven van code). Dit is alsof je alleen kijkt of de metselaar snel bakstenen kan leggen, maar nooit vraagt of het huis veilig is of of de bewoners er blij mee zijn.
Slechts 5% test het ontwerpen (de blauwdrukken).
Slechts 3% test het idee vormen (wat wil de klant eigenlijk?).

Het is alsof je een auto-testerij hebt die alleen test hoe snel de motor draait, maar nooit test of de remmen werken, of de airco goed is, of of de bestuurder veilig zit. We testen de AI's dus vooral op hun "handwerk", maar vergeten hun "planner" en "architect" vaardigheden.

3. Het Gevaar: De "Cheats" in de Test

Een ander groot probleem is data lekken.
Stel je voor dat je een examen geeft aan een student, maar de antwoorden staan al in het boek dat de student vorige week heeft gelezen. De student haalt dan een 10, maar dat betekent niet dat hij het echt snapt; hij heeft het gewoon uit het hoofd geleerd.

Zo werkt het ook met deze AI's. Veel tests gebruiken oude code die de AI's al hebben gezien tijdens hun "leren" (trainen). De AI's lijken dan super slim, maar in de echte wereld, met nieuwe problemen, zakken ze door de bodem. De onderzoekers zeggen: "We hebben betere, eerlijkere tests nodig die niet in de 'lerende' boeken van de AI staan."

4. De Toekomst: Van "Metselaar" naar "Hoofdbouwkundige"

De huidige AI's worden vaak getest alsof ze alleen maar een metselaar zijn die een muur moet opbouwen. Maar in de echte wereld moet een software-ontwikkelaar ook kunnen:

Luisteren naar de klant (eisen stellen).
Plannen maken (ontwerpen).
Samenwerken met mensen.
Een heel gebouw onderhouden, niet alleen één muur.

De onderzoekers zeggen dat we de tests moeten veranderen. We moeten AI's testen die kunnen nadenken en plannen, niet alleen die die snel typen. We hebben tests nodig die kijken naar hoe de AI omgaat met een heel project, niet alleen met één zinnetje code.

Samenvatting in één zin

Deze paper zegt: "We testen onze slimme AI-coders momenteel alsof ze alleen maar bakstenen kunnen leggen, terwijl we vergeten te kijken of ze ook goede architecten zijn; we moeten eerlijkere en bredere tests maken voor de hele bouwplaat van software."

Kortom: De technologie is er, maar onze manier om te kijken of ze het goed doen, is nog vol met gaten. Het is tijd om de meetlat te verleggen!

Software Development Life Cycle Perspective: A Survey of Benchmarks for Code Large Language Models and Agents

1. Het Grote Ontwerp: De Bouwplaat van Software

2. Het Grote Probleem: Een Scheef Gebouwd Huis

3. Het Gevaar: De "Cheats" in de Test

4. De Toekomst: Van "Metselaar" naar "Hoofdbouwkundige"

Samenvatting in één zin

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten en Bevindingen

Betekenis en Toekomstperspectief

Software Development Life Cycle Perspective: A Survey of Benchmarks for Code Large Language Models and Agents

1. Het Grote Ontwerp: De Bouwplaat van Software

2. Het Grote Probleem: Een Scheef Gebouwd Huis

3. Het Gevaar: De "Cheats" in de Test

4. De Toekomst: Van "Metselaar" naar "Hoofdbouwkundige"

Samenvatting in één zin

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten en Bevindingen

Betekenis en Toekomstperspectief

Meer zoals dit

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem