daVinci-Env: Open SWE Environment Synthesis at Scale

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einen Roboter-Azubi trainieren, der Programmierfehler in riesigen Software-Projekten finden und reparieren soll. Das ist die Aufgabe von sogenannten „SWE-Agents" (Software Engineering Agents).

Das Problem bisher war: Um diesen Azubi zu trainieren, braucht man eine perfekte Übungsumgebung. Stell dir das wie einen Flugsimulator für Piloten vor. Bisher gab es nur sehr wenige, oft kaputte oder zu einfache Simulatoren. Die großen Firmen hatten zwar super Simulatoren, aber niemand durfte sie sehen oder nutzen (sie waren „geheim"). Das machte es für Forscher und Universitäten fast unmöglich, gute Azubis auszubilden.

Hier kommt OpenSWE ins Spiel – das ist das neue Projekt aus dem Paper, das alles verändert.

1. Der riesige Baukasten (Die Umgebung)

Stell dir OpenSWE wie einen riesigen, offenen Werkzeugkasten vor, der von einem Team aus SII, SJTU und GAIR gebaut wurde.

Die Größe: Sie haben nicht nur ein paar Werkzeuge gebaut, sondern 45.320 komplette Übungsumgebungen (Docker-Container). Das ist wie ein ganzer Flughafen voller Flugsimulatoren, die alle funktionieren.
Die Transparenz: Im Gegensatz zu den geheimen Firmen-Lösungen haben sie alles offen gelegt. Jeder kann die Baupläne (Dockerfiles), die Prüfungsfragen (Tests) und die Maschinen sehen, mit denen sie gebaut wurden. Es ist, als würden sie nicht nur den Simulator verkaufen, sondern auch die Fabrik, in der er gebaut wurde, für alle zugänglich machen.

2. Der intelligente Baumeister (Das Multi-Agent-System)

Wie baut man so etwas riesiges? Nicht mit einer Hand, sondern mit einem Team aus digitalen Handwerksmeistern (Multi-Agenten), die auf einem riesigen Computer-Cluster (64 Server) arbeiten.

Der Entdecker: Ein Agent sucht im Internet nach echten Software-Projekten auf GitHub.
Der Architekt: Ein zweiter Agent baut die Umgebung (den Container) so, dass sie genau wie das Original funktioniert.
Der Prüfer: Ein dritter Agent schreibt den Test, um zu sehen, ob die Reparatur wirklich klappt.
Der Qualitätskontrolleur: Ein vierter Agent schaut sich das Ergebnis an. Wenn die Aufgabe zu leicht ist (wie „Ändere ein Komma") oder gar nicht lösbar ist (weil die Aufgabe falsch formuliert wurde), wird sie aussortiert.

3. Die Qualitätssicherung (Das Filter-System)

Das ist der wichtigste Teil: Nicht jede Übung ist gut.

Das Problem: Manchmal sagt ein Fehlerbericht: „Das Licht geht nicht an", aber die Lösung ist nur, eine Glühbirne zu kaufen, was der Code nicht kann. Oder die Lösung ist so offensichtlich, dass es keine echte Übung ist.
Die Lösung: OpenSWE hat einen intelligenten Filter. Er wirft alle zu leichten oder unlösbaren Aufgaben weg. Er behält nur die „Goldstücke" – Aufgaben, die herausfordernd genug sind, um den Azubi zu fordern, aber lösbar genug, um ihn nicht frustriert aufzugeben.
Die Investition: Für diesen Bau und die Qualitätsprüfung haben sie etwa 1,47 Millionen Dollar ausgegeben. Das ist wie der Bau einer ganzen Flugschule, nur für Software.

4. Das Ergebnis: Der Super-Azubi

Was passiert, wenn man einen KI-Modell (den Azubi) mit diesem riesigen, hochwertigen Trainingsmaterial füttert?

Die Leistung: Die Modelle, die mit OpenSWE trainiert wurden (OpenSWE-32B und OpenSWE-72B), sind aktuell die Besten ihrer Klasse. Sie lösen etwa 66 % der schwierigen Aufgaben, während andere Modelle nur bei ca. 50–60 % liegen.
Der Skalierungseffekt: Je mehr Daten sie bekommen, desto besser werden sie. Es gibt keine „Grenze", an der sie aufhören zu lernen. Es ist wie beim Sporttraining: Je mehr qualitativ hochwertige Übungen man macht, desto stärker wird man.
Der Nebeneffekt: Interessanterweise werden diese Modelle durch das Programmierenlernen auch in anderen Bereichen besser! Sie können Matheaufgaben und Wissenschaftsfragen besser lösen, ohne dabei Faktenwissen zu verlieren. Es ist, als würde ein Schüler durch das Lösen von komplexen Physikproblemen plötzlich auch besser im Aufsatzschreiben werden, weil er gelernt hat, logisch zu denken.

Zusammenfassung in einem Satz

OpenSWE ist wie der Bau einer riesigen, offenen und perfekt organisierten Flugschule für KI-Programmierer, die es jedem erlaubt, die besten Azubis der Welt auszubilden, indem sie echte, schwierige und gut geprüfte Aufgaben nutzen, statt nur theoretische Beispiele.

Das Paper zeigt also: Wenn man die Infrastruktur (die Übungsumgebungen) in großem Maßstab und mit hoher Qualität bereitstellt, dann steigen die Fähigkeiten der KI-Modelle drastisch – und das Wissen gehört nun allen, nicht nur den großen Tech-Konzernen.

daVinci-Env: Open SWE Environment Synthesis at Scale

1. Der riesige Baukasten (Die Umgebung)

2. Der intelligente Baumeister (Das Multi-Agent-System)

3. Die Qualitätssicherung (Das Filter-System)

4. Das Ergebnis: Der Super-Azubi

Zusammenfassung in einem Satz

Problemstellung

Methodik: OpenSWE Framework

Wichtige Beiträge

Ergebnisse

Bedeutung

daVinci-Env: Open SWE Environment Synthesis at Scale

1. Der riesige Baukasten (Die Umgebung)

2. Der intelligente Baumeister (Das Multi-Agent-System)

3. Die Qualitätssicherung (Das Filter-System)

4. Das Ergebnis: Der Super-Azubi

Zusammenfassung in einem Satz

Problemstellung

Methodik: OpenSWE Framework

Wichtige Beiträge

Ergebnisse

Bedeutung

Mehr davon

Diffusion Language Models Know the Answer Before Decoding

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yorùbá