SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration

Dit paper introduceert SWE-CI, het eerste repository-level benchmark dat agenten evalueert op hun vermogen om codebases te onderhouden via een continu-integratiecyclus, waardoor de focus verschuift van statische, eenmalige foutoplossing naar dynamische, langetermijnonderhoudbaarheid.

Jialong Chen, Xander Xu, Hu Wei, Chuan Chen, Bing Zhao

Gepubliceerd 2026-03-05
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een gigantisch, levend huis bouwt.

Tot nu toe hebben we de slimste computerprogramma's (de AI-agenten) getest op één specifieke vaardigheid: kunnen ze een gat in de muur dichten als je ze dat één keer vraagt? Als ze dat kunnen, krijgen ze een goed cijfer. Dit is zoals het testen van een metselaar die perfect een baksteen in een gat kan leggen als je hem alleen die ene baksteen geeft.

Maar in het echte leven is bouwen veel lastiger. Je moet niet alleen gaten dichten; je moet het huis jarenlang verbouwen, verdiepingen toevoegen, de keuken verplaatsen en de fundering versterken, terwijl je tegelijkertijd zorgt dat het huis niet instort.

Dit is precies wat het nieuwe onderzoek SWE-CI doet. Het is een nieuwe manier om te testen of AI-programma's echt goede "bouwmeesters" zijn voor de lange termijn, in plaats van alleen maar goede "reparateurs" voor de korte termijn.

Hier is de uitleg in simpele taal:

1. Het oude probleem: De "Snapshot"-valkuil

Vroeger testten we AI met een foto (een snapshot).

  • Hoe het werkte: Je gaf de AI een foto van een kapotte deur en vroeg: "Maak dit goed." De AI maakte een oplossing, en als de deur open ging, was het goed.
  • Het probleem: De AI kon een "snelle, lelijke oplossing" kiezen. Bijvoorbeeld: hij plakt een stuk tape op de deur. De deur gaat open (test geslaagd!), maar als je morgen een nieuw raam moet inbouwen, zit die tape in de weg en stort alles in. De AI had de test gehaald, maar het huis is nu onveilig voor de toekomst.

2. De nieuwe oplossing: SWE-CI (De "Levende Bouwplaats")

SWE-CI verandert de test. In plaats van één foto, geven we de AI een levende bouwgeschiedenis.

  • De Opdracht: We nemen een echt bestaand computerprogramma (zoals een populief appje) uit het verleden (bijvoorbeeld van 2 jaar geleden) en laten de AI het bouwen tot aan de huidige versie.
  • De Reis: Dit is geen één-opdracht. Het is een lange reis van 71 stappen (commits) over 233 dagen.
  • De Regel: De AI moet elke stap doen, testen, en dan de volgende stap nemen. Als de AI in stap 3 een slechte beslissing neemt (zoals die tape op de deur), wordt stap 4, 5 en 6 steeds moeilijker. Uiteindelijk moet het hele huis (het programma) werken.

3. Hoe werkt de test? (Het Architect-Programmeur Team)

Om dit realistisch te maken, gebruiken de onderzoekers een slim team van twee AI's:

  • De Architect: Kijkt naar wat er mis is en zegt: "We moeten een nieuwe trap bouwen." Hij schrijft een plan, maar laat de details over aan de ander.
  • De Programmeur: Voert het plan uit. Hij bouwt de trap.
  • De CI-Lus (Continuous Integration): Dit is als een kwaliteitscontroleur die elke dag langs komt. Na elke stap van de Programmeur wordt er getest: "Werkt het nog? Zijn er nieuwe gaten ontstaan?" Als er gaten zijn, moet de Architect een nieuw plan maken.

4. De score: "EvoScore" (De Duurzaamheidsmeter)

Hoe weten we of de AI goed is?

  • Oude manier: "Heeft hij de test gehaald?" (Ja/Nee).
  • Nieuwe manier (EvoScore): "Hoe makkelijk is het om morgen nog iets te bouwen?"
    • Als de AI een mooie, stevige trap bouwt, wordt de score hoger naarmate het project vordert.
    • Als de AI een snelle, lelijke oplossing kiest, wordt de score lager naarmate het project vordert, omdat de volgende bouwer (of de AI zelf in de volgende ronde) vastloopt.

5. Wat hebben ze ontdekt?

De onderzoekers hebben 18 verschillende AI-modellen getest. Hier zijn de belangrijkste lessen:

  • AI wordt steeds beter: Nieuwere modellen zijn duidelijk beter in het bouwen van stevige huizen dan oudere modellen.
  • Sommige AI's zijn "kortzichtig": Sommige modellen zijn geweldig in het snel dichten van gaten (ze halen de eerste test), maar ze bouwen zo'n rommelige muren dat je na 10 stappen vastloopt. Ze maken "technische schulden" (zoals een huis vol met tape en lijm).
  • Het grootste probleem: Regressies: Dit is een technisch woord voor "iets dat eerst werkte, maar nu kapot is". De meeste AI's maken tijdens het lange proces fouten die oude dingen kapot maken. Slechts een paar modellen (zoals de 'Claude Opus' serie) kunnen dit goed voorkomen.

Conclusie

SWE-CI zegt eigenlijk: "Stop met testen of AI's alleen maar goed kunnen repareren. Laten we testen of ze kunnen bouwen en onderhouden zonder het huis in te laten storten."

Het is de verschuiving van: "Kun je dit gat dichten?" naar "Kun je dit huis 100 jaar laten staan terwijl we er elke dag aan werken?"

Dit onderzoek helpt ons te begrijpen welke AI's we kunnen vertrouwen om complexe software voor de lange termijn te bouwen, en welke AI's we beter niet moeten gebruiken voor grote projecten.