Beyond Functional Correctness: Design Issues in AI… — Begrijpelijke uitleg

✨

Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

De "AI-Codeerders" zijn er, maar zijn ze ook goede architecten?

Stel je voor dat je een enorme, complexe stad wilt bouwen. In het verleden moest je elke baksteen zelf leggen, elke muur metselen en elke leiding leggen. Dat kostte jaren. Nu hebben we een nieuwe, magische bouwploeg: AI-IDE's (zoals Cursor). Deze digitale werknemers kunnen niet alleen bakstenen leggen, maar ze kunnen ook plannen maken, leidingen trekken en hele wijken in een paar uur neerzetten.

Maar hier is de vraag: als je deze AI vraagt om een hele stad te bouwen, is het resultaat dan een stevige, goed ontworpen stad? Of is het een lappendeken van huizen die wel staan, maar waar de fundering wankel is?

Dit is precies wat onderzoekers van de Universiteit van Wuhan en andere instellingen hebben onderzocht in hun paper: "Beyond Functional Correctness: Design Issues in AI IDE-Generated Large-Scale Projects".

Hier is wat ze hebben ontdekt, vertaald naar gewoon Nederlands:

1. De "Magische" Bouwploeg werkt (maar niet zonder hulp)

De onderzoekers wilden weten of Cursor (een AI-IDE) een heel groot softwareproject kan bouwen, niet zomaar een klein stukje code. Ze hebben 10 grote projecten laten bouwen, variërend van een sociale media-app tot een online school en een winkelkassasysteem.

Het resultaat: Ja, het werkt! De AI kon enorme projecten bouwen met gemiddeld 17.000 regels code en 114 bestanden.
De truc: De AI deed dit niet zomaar. De onderzoekers gebruikten een slimme methode genaamd FD-HITL.
- De analogie: Stel je voor dat je een chef-kok bent. Als je de kok alleen maar zegt "Maak een maaltijd", krijg je misschien rommel. Maar als je zegt: "Eerst de soep, dan het vlees, en zorg dat de saus niet te zout is," en je controleert tussendoor of het goed gaat, krijg je een topmaaltijd.
- De onderzoekers gaven de AI dus geen losse opdracht, maar een stap-voor-stap plan met duidelijke controlepunten. Zo kregen ze projecten die voor 91% correct werkten.

2. De "Schoonmaak" is nog nodig: De verborgen gebreken

Hoewel de gebouwen (de projecten) stonden en de deuren opengingen (ze werkten), keken de onderzoekers naar de kwaliteit van het ontwerp. Ze gebruikten twee digitale inspecteurs (SonarQube en CodeScene) om te kijken of er verborgen gebreken waren.

Het nieuws is minder goed: De AI bouwt veel "slechte" dingen.

Ze vonden 4.498 design-problemen. Hier zijn de meest voorkomende, vertaald naar bouwtermen:

Dubbel werk (Code Duplication): De AI herhaalt zich vaak.
- Analogie: Het is alsof de metselaar in elke kamer van het huis exact dezelfde muurtekstuur heeft geplakt, in plaats van één patroon te gebruiken en dat te kopiëren. Als je later de kleur wilt veranderen, moet je dat in 100 plekken doen.
De "Alles-in-één" kamer (Large Methods): De AI maakt functies die te groot zijn.
- Analogie: Een kamer waarin de keuken, de slaapkamer, de badkamer én de garage in één ruimte zijn samengevoegd. Het is onmogelijk om te weten wat waar gebeurt, en als je de badkamer wilt renoveren, moet je de hele kamer slopen.
Verwarrende instructies (Complexity): De logica is te ingewikkeld.
- Analogie: Een labyrint van gangen met 100 afslagen. Als je een foutje wilt vinden, ben je dagen kwijt.
Vergeten veiligheidsvoorschriften (Accessibility & Best Practices): De AI vergeet regels.
- Analogie: De AI bouwt een trap zonder leuning of een deur die niet open gaat voor rolstoelgebruikers. Het werkt voor de "standaardgebruiker", maar faalt voor iedereen die anders is.

3. Waarom gebeurt dit?

De AI is als een supersnelle, maar ongeduldige stagiair.

Hij is geweldig in het snel neerzetten van muren (functies).
Hij is echter slecht in het nadenken over de lange termijn. Hij denkt niet: "Hoe ziet dit eruit over 5 jaar als we iets moeten aanpassen?"
Hij volgt regels niet altijd strikt (zoals de "DRY"-regel: Don't Repeat Yourself of "Doe niet twee keer hetzelfde").

4. Wat betekent dit voor ons?

De conclusie van de onderzoekers is duidelijk: AI kan de bouwvakkers vervangen, maar niet de architect.

Voor ontwikkelaars: Je kunt AI gebruiken om snel te bouwen, maar je mag nooit stoppen met controleren. Je moet de "hoofdarchitect" blijven. Je moet de AI vertellen wat er gebouwd moet worden en hoe het eruit moet zien, en daarna elke stap controleren.
De waarschuwing: Als je AI alleen maar laat werken zonder toezicht, krijg je een "snel gebouwde stad" die er mooi uitziet, maar die over een paar jaar instort omdat de fundering te zwak is.

Samenvattend in één zin:

De AI kan een heel huis in een dag bouwen, maar zonder een menselijke architect die de plannen controleert, is het huis waarschijnlijk vol met lekke daken, dubbele muren en trappen die nergens naartoe leiden. De snelheid is geweldig, maar de kwaliteit heeft nog steeds een mens nodig.

Beyond Functional Correctness: Design Issues in AI IDE-Generated Large-Scale Projects

1. De "Magische" Bouwploeg werkt (maar niet zonder hulp)

2. De "Schoonmaak" is nog nodig: De verborgen gebreken

3. Waarom gebeurt dit?

4. Wat betekent dit voor ons?

Samenvattend in één zin:

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Beyond Functional Correctness: Design Issues in AI IDE-Generated Large-Scale Projects

1. De "Magische" Bouwploeg werkt (maar niet zonder hulp)

2. De "Schoonmaak" is nog nodig: De verborgen gebreken

3. Waarom gebeurt dit?

4. Wat betekent dit voor ons?

Samenvattend in één zin:

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit