daVinci-Env: Open SWE Environment Synthesis at Scale

Deze paper introduceert OpenSWE, een open-source framework dat via een geschaalde multi-agent pipeline 45.320 uitvoerbare Docker-omgevingen en 13.000 hoogwaardige trainingscurves genereert, wat leidt tot state-of-the-art prestaties in software-engineering en aanzienlijke verbeteringen in domeinoverstijgende redeneervermogens.

Dayuan Fu, Shenyu Wu, Yunze Wu, Zerui Peng, Yaxing Huang, Jie Sun, Ji Zeng, Mohan Jiang, Lin Zhang, Yukun Li, Jiarui Hu, Liming Liu, Jinlong Hou, Pengfei Liu

Gepubliceerd 2026-03-16
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

De "OpenSWE": Een Grootse Keuken voor AI-Programmeurs

Stel je voor dat je wilt leren koken, maar je hebt alleen een theorieboek. Je kunt lezen wat een pannenkoek is, maar zolang je niet zelf de pan op het vuur zet, de eieren breekt en ziet of het niet aanbrandt, leer je het nooit echt.

Voor kunstmatige intelligentie (AI) die software moet schrijven, is het precies hetzelfde. Tot nu toe kregen deze AI's vaak alleen maar "theorieboeken" (oude code en beschrijvingen van problemen) te lezen. Ze moesten raden hoe ze een probleem oplossen, zonder dat ze de code daadwerkelijk konden testen.

Het Probleem: De "Droge" Oefening
De auteurs van dit paper zeggen: "Dat werkt niet goed." AI's hebben een proefkeuken nodig. Een plek waar ze code kunnen schrijven, een test kunnen draaien, zien of het werkt, en als het mislukt, het kunnen proberen te repareren.

Het probleem is dat het bouwen van zo'n proefkeuken voor duizenden verschillende softwareprojecten extreem moeilijk en duur is. Het is alsof je voor elke leerling een volledig uitgeruste keuken moet bouwen met alle juiste ingrediënten, en dat moet je doen voor 45.000 verschillende recepten. De meeste onderzoekers hebben daar niet het geld of de machines voor.

De Oplossing: OpenSWE (De Grote Keukenfabriek)
De onderzoekers van SII en GAIR hebben OpenSWE gebouwd. Dit is een gigantisch, volledig transparant project dat een "proefkeuken" creëert voor AI's.

Hier is hoe ze het gedaan hebben, vertaald naar alledaagse termen:

  1. De Fabriek (De Multi-Agent Systeem):
    In plaats van dat één mens 45.000 keukens bouwt, hebben ze een team van digitale "robots" (AI-agenten) ingezet. Deze robots werken samen in een enorme fabriek met 64 supercomputers.

    • De Verkenner: Zoekt naar oude recepten (GitHub-repositories) en kijkt of ze bruikbaar zijn.
    • De Bouwer: Zorgt dat de keuken (de Docker-container) perfect is ingericht met de juiste potten, pannen en ingrediënten (software-bibliotheken).
    • De Keurmeester: Test of het recept werkt. Als de AI een fout maakt, helpt deze robot om de instructies te verbeteren.
  2. De Kwaliteitscontrole (Het Filteren):
    Niet elk recept is goed. Sommige zijn te makkelijk (de oplossing staat al in de vraag) en andere zijn onoplosbaar (de vraag is onduidelijk).

    • De onderzoekers hebben een slim filter ontwikkeld. Ze gooien de "te makkelijke" en "onoplosbare" recepten weg.
    • Ze houden alleen de "gouden middenweg" over: problemen die uitdagend genoeg zijn om te leren, maar oplosbaar genoeg om succesvol te zijn. Dit is als het selecteren van de perfecte sportwedstrijden voor een atleet: niet te makkelijk, niet onmogelijk, maar net goed genoeg om sterker te worden.
  3. Het Resultaat:
    Ze hebben 45.320 werkende, testbare omgevingen gebouwd. Dat is een enorme stap vooruit. Ze hebben zelfs de blauwdrukken (de code voor de fabriek) gratis beschikbaar gesteld, zodat iedereen het kan nabouwen.

Wat levert dit op? (De Proef)
Ze hebben AI-modellen getraind in deze nieuwe "keuken" en getest op een beroemde test (SWE-bench).

  • De Uitslag: De modellen die in deze nieuwe omgevingen hebben geoefend, werden veel beter dan modellen die op de oude, beperkte methoden waren getraind.
  • De Groei: Hoe meer ze oefenden, hoe beter ze werden. Er was geen punt waarop ze "vol" zaten; ze bleven maar verbeteren.
  • Bijeffecten: Interessant genoeg werden deze AI's niet alleen beter in programmeren, maar ook in wiskunde en wetenschappelijke redenering. Het lijkt erop dat het leren om complexe softwareproblemen stap voor stap op te lossen, hun brein scherper maakt voor alle soorten logische puzzels.

Conclusie
Kortom: OpenSWE is de eerste keer dat iemand een enorme, openbare "trainingshal" heeft gebouwd waar AI's software kunnen leren schrijven door echt te doen, te falen en te verbeteren. Het is alsof we AI's niet meer alleen theorie laten studeren, maar ze echt de handen uit de mouwen hebben laten steken in een veilige, gecontroleerde omgeving. Hierdoor zijn ze nu de beste software-engineers ter wereld geworden die we tot nu toe hebben gezien.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →