Theory of Code Space: Do Code Agents Understand Software Architecture?

Die Arbeit stellt den ToCS-Benchmark vor, der zeigt, dass KI-Code-Agenten beim Verständnis von Softwarearchitekturen in mehrdateigen Umgebungen oft scheitern, wobei ihre Fähigkeit zur aktiven Exploration, zur Nutzung strukturierter Glaubenszustände und zur Konsistenz des Wissens stark vom jeweiligen Modell abhängt.

Grigory Sapunov

Veröffentlicht Mon, 09 Ma
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein Architekt, der beauftragt wurde, ein riesiges, komplexes Gebäude zu verstehen. Aber es gibt ein Problem: Du darfst nicht einfach das ganze Gebäude auf einmal sehen. Du hast nur eine kleine Taschenlampe und ein begrenztes Budget an Strom. Du musst also Zug für Zug entscheiden, welche Räume du betrittst, welche Türen du öffnest und welche Fenster du inspizierst.

Genau in dieser Situation testen die Autoren des Papers „Theory of Code Space" (TOCS) moderne KI-Programmierer (sogenannte „Code Agents").

Hier ist die einfache Erklärung der Forschung, ohne Fachchinesisch:

1. Das Problem: Warum KI bei großen Projekten scheitert

KI-Modelle sind super darin, kleine Aufgaben zu lösen (wie ein einzelnes Zimmer zu renovieren). Aber sobald es darum geht, ein ganzes Hochhaus mit vielen voneinander abhängigen Räumen zu verstehen, gehen sie oft durcheinander. Sie können zwar Code schreiben, aber sie verstehen nicht, wie die Teile zusammenhängen.

Die Forscher fragen sich: Verstehen diese KIs wirklich die Architektur des Codes, oder raten sie nur?

2. Der Test: Die „Code-Rallye"

Um das herauszufinden, haben die Forscher eine Art Spiele-Rallye entwickelt:

  • Das Spielfeld: Ein künstlich erzeugter, riesiger Software-Code (wie ein Labyrinth aus Dateien).
  • Die Regeln: Die KI darf nicht alles auf einmal sehen. Sie muss sich entscheiden: „Öffne ich diese Datei? Oder suche ich erst mal in diesem Ordner?" Jede Aktion kostet Punkte (Strom).
  • Die Aufgabe: Alle paar Schritte muss die KI ihre aktuelle „Landkarte" des Gebäudes auf ein Blatt Papier (JSON-Format) zeichnen. Sie muss sagen: „Ich glaube, Raum A führt zu Raum B, und hier gibt es eine wichtige Regel."

Das Ziel ist nicht nur, am Ende das richtige Gebäude zu bauen, sondern zu sehen, wie sich die Landkarte in ihrem Kopf entwickelt, während sie das Gebäude erkundet.

3. Die drei großen Überraschungen

Die Forscher haben verschiedene KI-Modelle getestet und drei erstaunliche Dinge entdeckt:

A. Der „Aktiv-Passiv"-Unterschied (Das ist nicht für jeden gleich)

Stell dir vor, du musst einen neuen Stadtteil kennenlernen.

  • KI-Modell A (z. B. GPT-5): Es lernt am besten, wenn es selbst aktiv durch die Gassen läuft und die Häuser einzeln betrachtet. Wenn man ihm plötzlich alle Häuser auf einmal vor die Nase hält, wird es verwirrt und macht mehr Fehler. Es braucht den Prozess des Entdeckens.
  • KI-Modell B (z. B. Gemini): Dieses Modell ist genau andersherum. Es ist wie ein Mensch, der eine Luftaufnahme braucht. Wenn es die ganze Stadt auf einmal sieht, versteht es die Struktur sofort. Wenn es aber nur einzeln von Haus zu Haus laufen muss, verliert es den Überblick.

Fazit: Nicht alle KIs lernen auf die gleiche Weise. Was für den einen ein Vorteil ist, ist für den anderen ein Nachteil.

B. Der „Gedächtnis-Test" (Wer vergisst was?)

Während der Rallye mussten die KIs immer wieder ihre Landkarte aktualisieren.

  • Der kleine Gewinner: Ein kleineres KI-Modell (Gemini 2.5 Flash) war wie ein unvergesslicher Fotograf. Es hat jede neue Information perfekt behalten und seine Landkarte Schritt für Schritt verbessert, ohne alte Details zu verlieren.
  • Der große Verlierer: Ein riesiges, mächtiges KI-Modell (Gemini 2.5 Pro) war wie ein vergeßlicher Träumer. Es hat am Anfang eine tolle Landkarte gezeichnet, aber in einem Moment des „Nachdenkens" hat es plötzlich alles vergessen, was es vorher gesehen hatte. Es hat seine eigene Landkarte zerstört.

Fazit: Größer bedeutet nicht automatisch besser im Behalten von Informationen. Manchmal ist das kleine Modell stabiler.

C. Der „Notizblock"-Effekt (Scaffolding)

Die Forscher haben getestet, ob es hilft, wenn die KI ihre eigene Landkarte (die sie gerade gezeichnet hat) als Notizblock vor sich liegen hat, während sie weiterforscht.

  • Für Modell A war das wie ein Superkraft-Boost. Es hat die eigene Notiz genutzt, um noch klüger zu werden. Es hat sich quasi selbst „gestützt".
  • Für Modell B hat das gar nichts gebracht. Es ignorierte seine eigene Notiz.

4. Was bedeutet das für die Zukunft?

Die Studie zeigt uns, dass KI-Programmierer noch nicht so schlau sind, wie wir hoffen. Sie können Code schreiben, aber sie bauen sich oft keine stabile „mentale Landkarte" des gesamten Projekts.

Die Lösung?
Wir müssen KI-Systeme so bauen, dass sie:

  1. Aktiv lernen (nicht nur alles auf einmal füttern).
  2. Ihr Gedächtnis trainieren, damit sie nicht plötzlich alles vergessen.
  3. Notizen machen, die sie während der Arbeit nutzen können.

Zusammenfassung in einem Satz

Die Forscher haben herausgefunden, dass KI-Programmierer beim Verstehen von komplexer Software oft wie verwirrt Touristen sind, die ihre Landkarte ständig verlieren oder falsch lesen – und dass verschiedene KIs völlig unterschiedliche Strategien brauchen, um sich nicht im digitalen Dschungel zu verirren.

Das Paper nennt diese neue Testmethode TOCS (Theory of Code Space) und stellt sie der Öffentlichkeit zur Verfügung, damit alle daran forschen können, wie man KIs zu besseren Architekten macht.