Can AI Agents Generate Microservices? How Far are We?

Die Studie zeigt, dass KI-Agenten zwar funktionsfähige und wartbare Microservices mit guter API-Konformität generieren können, jedoch aufgrund inkonsistenter Korrektheit und des nach wie vor erforderlichen menschlichen Eingriffs eine vollständig autonome Erstellung noch nicht erreicht ist.

Bassam Adnan, Matteo Esposito, Davide Taibi, Karthik Vaidhyanathan

Veröffentlicht Wed, 11 Ma
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Studie, als würden wir sie an einem gemütlichen Nachmittag bei Kaffee besprechen – ohne Fachchinesisch, aber mit ein paar guten Bildern.

Das große Experiment: Können KI-Roboter eigene Mini-Apps bauen?

Stellt euch vor, ihr habt eine riesige, gut organisierte Stadt (das ist eure Software). Diese Stadt besteht aus vielen kleinen, spezialisierten Gebäuden: Ein Gebäude ist nur für den Geldtransfer zuständig, ein anderes nur für Fahrkartenbuchungen, ein drittes nur für Benachrichtigungen. Diese kleinen Gebäude nennt man Mikrodienste.

Normalerweise bauen Architekten und Bauarbeiter (also Software-Entwickler) diese Gebäude manuell. Sie müssen sicherstellen, dass die Wasserrohre des einen Gebäudes perfekt mit den Abflussrohren des anderen verbunden sind.

Die Frage dieser Studie war: Können KI-Agenten (also intelligente Roboter) diese kleinen Gebäude selbstständig entwerfen und bauen? Und wenn ja, wie gut machen sie das?


Die zwei Baustellen-Szenarien

Die Forscher haben die KI-Roboter in zwei völlig unterschiedlichen Situationen getestet, um zu sehen, wie sie reagieren:

1. Der "Nachbarschafts-Test" (Inkrementelle Generierung)

Die Situation: Die Stadt existiert schon. Ein neues Gebäude soll genau dort gebaut werden, wo ein altes abgerissen wurde. Die Straßen, die Wasserleitungen und die Stromkabel der Nachbarn sind bereits verlegt und beschriftet.
Die Aufgabe: Der KI-Roboter soll das neue Gebäude so bauen, dass es perfekt in das bestehende Netzwerk passt.
Das Ergebnis:

  • Überraschung: Die KI war hier eher verwirrt, wenn man ihr zu viele Details vorgegeben hat.
  • Die Analogie: Wenn ihr einem Bauleiter sagt: "Hier ist ein 50-seitiges Handbuch, wie das alte Haus aussah, und hier sind die Pläne", dann starrt er oft auf das Handbuch und vergisst, auf die echten Rohre in der Wand zu schauen. Er baut etwas, das auf dem Papier toll aussieht, aber nicht an die vorhandenen Leitungen passt.
  • Besserer Weg: Wenn man dem Roboter nur sagt: "Baue hier ein Haus, schau dir aber die Nachbarn genau an", dann macht er das besser. Er nutzt seine Neugier, schaut sich die Umgebung an und passt sich an.
  • Erfolgsrate: Etwa 50–76 % der Gebäude waren funktionsfähig.

2. Der "Grüne-Wiese-Test" (Clean State Generierung)

Die Situation: Die Stadt ist leer. Es gibt keine alten Gebäude, keine Rohre, keine Straßen. Nur ein Zettel mit der Anforderung: "Hier soll ein Geldautomat stehen."
Die Aufgabe: Der KI-Roboter muss alles von Grund auf neu erfinden: Wo sind die Leitungen? Wie sieht die Schnittstelle aus?
Das Ergebnis:

  • Überraschung: Hier waren die KI-Roboter überraschend gut!
  • Die Analogie: Da es keine alten Rohre gibt, die man falsch anschließen könnte, baut der Roboter sein eigenes, sauberes System. Er ist kreativ und folgt den Regeln des Zettels. Da niemand da ist, der sagt "Nein, das Rohr muss hier sein", funktioniert das neue System oft perfekt mit den anderen neuen Systemen zusammen.
  • Erfolgsrate: Hier lagen die Erfolgsquoten bei 81–98 %.

Die drei verschiedenen "Bauarbeiter" (KI-Agenten)

Die Forscher haben drei verschiedene KI-Modelle getestet, wie drei verschiedene Bauunternehmen:

  1. Der "Codex"-Bauer (GPT-5): Er ist sehr gründlich und schreibt lange, detaillierte Pläne. Aber er ist langsam (manchmal braucht er fast 2 Stunden für ein Haus!) und teuer.
  2. Der "Claude"-Bauer: Er ist schnell und schreibt sehr kurze, präzise Pläne. Er ist aber sehr teuer pro Stunde.
  3. Der "Qwen"-Bauer (Open Source): Er ist günstig, schnell und macht oft gute Arbeit, aber manchmal braucht er etwas mehr Hilfe (Details), um nicht stecken zu bleiben.

Das Fazit zur Effizienz:

  • Zeit: Die meisten bauten in 7–8 Minuten. Der eine (Codex) brauchte manchmal 100 Minuten.
  • Kosten: Der günstigste Bauer kostete nur 3 Dollar pro Haus, der teuerste 13 Dollar.
  • Qualität: Interessanterweise war das, was der KI gebaut hat, oft einfacher und übersichtlicher als das, was menschliche Architekten gebaut haben. Weniger Komplexität ist eigentlich gut!

Was haben wir gelernt? (Die wichtigsten Lehren)

  1. Weniger ist manchmal mehr: Wenn die KI schon in einer bestehenden Stadt arbeitet, solltet ihr ihr nicht den ganzen Bauplan der Vergangenheit geben. Lasst sie die Umgebung selbst erkunden. Zu viele Details verwirren sie nur.
  2. Die KI ist noch kein Solo-Künstler: Die KI kann tolle Häuser bauen, aber sie braucht einen menschlichen Aufseher. Manchmal baut sie ein Haus, das zwar innen toll ist, aber die Tür zur falschen Straßenseite hat. Ein Mensch muss am Ende prüfen, ob alles passt.
  3. Vorsicht bei bekannten Städten: Die KI war viel besser darin, bekannte Gebäude (aus dem Internet) nachzubauen als völlig neue, private Projekte zu erfinden. Sie hat sich wahrscheinlich einfach Dinge auswendig gelernt, statt wirklich zu verstehen.
  4. Lautstärke bedeutet nicht Qualität: Ein KI-Modell, das sehr lange Pläne schreibt (viele Wörter), ist nicht unbedingt besser als eines, das kurze Pläne schreibt.

Das Fazit in einem Satz

KI-Agenten können heute schon erstaunlich gute Mikro-Apps bauen – manchmal sogar besser und einfacher als Menschen –, aber sie sind noch nicht bereit, die Baustelle komplett allein zu übernehmen. Sie brauchen einen menschlichen Chef, der ihnen sagt, wo sie anfangen sollen, und am Ende prüft, ob die Wasserleitungen auch wirklich angeschlossen sind.

Kurz gesagt: Die KI ist ein talentierter Lehrling, aber noch kein Meister.