Theory of Code Space: Do Code Agents Understand Software Architecture?

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein Architekt, der beauftragt wurde, ein riesiges, komplexes Gebäude zu verstehen. Aber es gibt ein Problem: Du darfst nicht einfach das ganze Gebäude auf einmal sehen. Du hast nur eine kleine Taschenlampe und ein begrenztes Budget an Strom. Du musst also Zug für Zug entscheiden, welche Räume du betrittst, welche Türen du öffnest und welche Fenster du inspizierst.

Genau in dieser Situation testen die Autoren des Papers „Theory of Code Space" (TOCS) moderne KI-Programmierer (sogenannte „Code Agents").

Hier ist die einfache Erklärung der Forschung, ohne Fachchinesisch:

1. Das Problem: Warum KI bei großen Projekten scheitert

KI-Modelle sind super darin, kleine Aufgaben zu lösen (wie ein einzelnes Zimmer zu renovieren). Aber sobald es darum geht, ein ganzes Hochhaus mit vielen voneinander abhängigen Räumen zu verstehen, gehen sie oft durcheinander. Sie können zwar Code schreiben, aber sie verstehen nicht, wie die Teile zusammenhängen.

Die Forscher fragen sich: Verstehen diese KIs wirklich die Architektur des Codes, oder raten sie nur?

2. Der Test: Die „Code-Rallye"

Um das herauszufinden, haben die Forscher eine Art Spiele-Rallye entwickelt:

Das Spielfeld: Ein künstlich erzeugter, riesiger Software-Code (wie ein Labyrinth aus Dateien).
Die Regeln: Die KI darf nicht alles auf einmal sehen. Sie muss sich entscheiden: „Öffne ich diese Datei? Oder suche ich erst mal in diesem Ordner?" Jede Aktion kostet Punkte (Strom).
Die Aufgabe: Alle paar Schritte muss die KI ihre aktuelle „Landkarte" des Gebäudes auf ein Blatt Papier (JSON-Format) zeichnen. Sie muss sagen: „Ich glaube, Raum A führt zu Raum B, und hier gibt es eine wichtige Regel."

Das Ziel ist nicht nur, am Ende das richtige Gebäude zu bauen, sondern zu sehen, wie sich die Landkarte in ihrem Kopf entwickelt, während sie das Gebäude erkundet.

3. Die drei großen Überraschungen

Die Forscher haben verschiedene KI-Modelle getestet und drei erstaunliche Dinge entdeckt:

A. Der „Aktiv-Passiv"-Unterschied (Das ist nicht für jeden gleich)

Stell dir vor, du musst einen neuen Stadtteil kennenlernen.

KI-Modell A (z. B. GPT-5): Es lernt am besten, wenn es selbst aktiv durch die Gassen läuft und die Häuser einzeln betrachtet. Wenn man ihm plötzlich alle Häuser auf einmal vor die Nase hält, wird es verwirrt und macht mehr Fehler. Es braucht den Prozess des Entdeckens.
KI-Modell B (z. B. Gemini): Dieses Modell ist genau andersherum. Es ist wie ein Mensch, der eine Luftaufnahme braucht. Wenn es die ganze Stadt auf einmal sieht, versteht es die Struktur sofort. Wenn es aber nur einzeln von Haus zu Haus laufen muss, verliert es den Überblick.

Fazit: Nicht alle KIs lernen auf die gleiche Weise. Was für den einen ein Vorteil ist, ist für den anderen ein Nachteil.

B. Der „Gedächtnis-Test" (Wer vergisst was?)

Während der Rallye mussten die KIs immer wieder ihre Landkarte aktualisieren.

Der kleine Gewinner: Ein kleineres KI-Modell (Gemini 2.5 Flash) war wie ein unvergesslicher Fotograf. Es hat jede neue Information perfekt behalten und seine Landkarte Schritt für Schritt verbessert, ohne alte Details zu verlieren.
Der große Verlierer: Ein riesiges, mächtiges KI-Modell (Gemini 2.5 Pro) war wie ein vergeßlicher Träumer. Es hat am Anfang eine tolle Landkarte gezeichnet, aber in einem Moment des „Nachdenkens" hat es plötzlich alles vergessen, was es vorher gesehen hatte. Es hat seine eigene Landkarte zerstört.

Fazit: Größer bedeutet nicht automatisch besser im Behalten von Informationen. Manchmal ist das kleine Modell stabiler.

C. Der „Notizblock"-Effekt (Scaffolding)

Die Forscher haben getestet, ob es hilft, wenn die KI ihre eigene Landkarte (die sie gerade gezeichnet hat) als Notizblock vor sich liegen hat, während sie weiterforscht.

Für Modell A war das wie ein Superkraft-Boost. Es hat die eigene Notiz genutzt, um noch klüger zu werden. Es hat sich quasi selbst „gestützt".
Für Modell B hat das gar nichts gebracht. Es ignorierte seine eigene Notiz.

4. Was bedeutet das für die Zukunft?

Die Studie zeigt uns, dass KI-Programmierer noch nicht so schlau sind, wie wir hoffen. Sie können Code schreiben, aber sie bauen sich oft keine stabile „mentale Landkarte" des gesamten Projekts.

Die Lösung?
Wir müssen KI-Systeme so bauen, dass sie:

Aktiv lernen (nicht nur alles auf einmal füttern).
Ihr Gedächtnis trainieren, damit sie nicht plötzlich alles vergessen.
Notizen machen, die sie während der Arbeit nutzen können.

Zusammenfassung in einem Satz

Die Forscher haben herausgefunden, dass KI-Programmierer beim Verstehen von komplexer Software oft wie verwirrt Touristen sind, die ihre Landkarte ständig verlieren oder falsch lesen – und dass verschiedene KIs völlig unterschiedliche Strategien brauchen, um sich nicht im digitalen Dschungel zu verirren.

Das Paper nennt diese neue Testmethode TOCS (Theory of Code Space) und stellt sie der Öffentlichkeit zur Verfügung, damit alle daran forschen können, wie man KIs zu besseren Architekten macht.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Theory of Code Space: Do Code Agents Understand Software Architecture?" auf Deutsch.

1. Problemstellung

Große Sprachmodelle (LLMs) erzielen zwar hervorragende Ergebnisse bei isolierten Code-Generierungsaufgaben (z. B. HumanEval), scheitern jedoch oft an komplexen Software-Engineering-Aufgaben, die ein tiefes Verständnis der Softwarearchitektur erfordern. Praktiker berichten, dass Modelle, die einfache Bugs beheben können, inkohärente Ergebnisse liefern, wenn sie reale Codebasen mit Dutzenden von interdependenten Modulen modifizieren müssen.

Der Kern des Problems liegt in der Unfähigkeit von Agenten, während der Erkundung eines Codebases eine kohärente interne Repräsentation (ein „kognitiver Landkarte") der Architektur aufzubauen und zu pflegen. Bisherige Benchmarks messen oft nur die Korrektheit des Outputs oder die Präzision beim Abrufen von Kontext, nicht aber, was der Agent tatsächlich über die Abhängigkeiten und Designabsichten glaubt.

2. Methodik: Theory of Code Space (TOCS)

Das Paper stellt TOCS vor, einen Benchmark, der das Framework der „Theory of Space" (TOS) – ursprünglich für räumliches Reasoning entwickelt – auf die Softwareentwicklung überträgt.

Umgebung: Statt eines Grid-Worlds nutzt TOCS prozedural generierte Python-Codebasen (Pipeline-Architektur) mit kontrollierter Komplexität.
Teilbeobachtbarkeit (Partial Observability): Der Agent hat einen begrenzten „Budget" an Aktionen (Standard: 20). Er muss Dateien gezielt öffnen (OPEN), Verzeichnisse auflisten (LIST), suchen (SEARCH) oder Signaturen inspizieren (INSPECT). Er erhält nicht sofort den gesamten Code.
Architektonische Kognition: Das Ziel ist der Aufbau einer strukturierten „kognitiven Karte" (Cognitive Map), die Abhängigkeiten (Edges) und Invarianten (Designregeln) erfasst.
Probing (Abfrage): Alle $K=3$ Aktionen wird der Agent unterbrochen und aufgefordert, seinen aktuellen Architektur-Glaubenszustand als strukturiertes JSON zu externalisieren. Dies geschieht ohne Kosten für das Budget, um die Erkundungsstrategie nicht zu verzerren.
Metriken:
- Dependency F1: Übereinstimmung der vorhergesagten Abhängigkeiten (IMPORTS, CALLS_API, DATA_FLOWS_TO, REGISTRY_WIRES) mit dem Ground Truth.
- Invariant F1: Fähigkeit, verdeckte Designbeschränkungen (z. B. „Modul A darf nicht direkt Modul C importieren") zu entdecken.
- Active-Passive Gap (APG): Differenz zwischen der Leistung bei aktiver Erkundung und passivem Erhalt aller Dateien.

3. Schlüsselbeiträge

TOCS-Framework: Ein Benchmark zur Evaluierung der aktiven Konstruktion und Wartung architektonischer Glaubenszustände in Code.
Prozeduraler Generator: Ein Tool zur Erzeugung von Codebasen mit vier Edge-Typen (darunter schwer erkennbare wie REGISTRY_WIRES und DATA_FLOWS_TO) und explizit gepflanzten Invarianten.
Empirische Erkenntnisse: Pilotstudien mit vier Baselines und sechs Frontier-LLMs (u. a. GPT-5.3-Codex, Claude Sonnet 4.6, verschiedene Gemini-Modelle) offenbaren signifikante Unterschiede in den Fähigkeiten.
Open Source: Die Veröffentlichung des gesamten Toolkits für die Community.

4. Wichtige Ergebnisse und Erkenntnisse

A. Der Modell-abhängige Active-Passive Gap

Im Gegensatz zu räumlichen Benchmarks, bei denen aktive Erkundung meist schlechter abschneidet, zeigt sich in TOCS ein modellabhängiges Verhalten:

GPT-5.3-Codex: Performt bei aktiver Erkundung besser als beim passiven Erhalt aller Dateien (APG = -0,22). Das Modell profitiert von der sequenziellen Verarbeitung und vermeidet Informationsüberflutung.
Gemini 2.5 Flash: Performt bei passivem Erhalt (alle Dateien auf einmal) deutlich besser als bei aktiver Erkundung (APG = +0,23). Dies deutet darauf hin, dass aktive Erkundung für dieses Modell eine nicht-triviale Fähigkeit ist, die es noch nicht beherrscht.

B. Modell-abhängiges Self-Scaffolding (Selbst-Gerüstbau)

Die Externalisierung des Glaubenszustands (JSON-Abfrage) wirkt als „Selbst-Gerüstbau" (Self-Scaffolding), aber nur für bestimmte Modelle:

GPT-5.3-Codex: Das Behalten der vorherigen JSON-Maps im Kontext („Scratchpad") steigert die Performance um ca. 14 Punkte F1. Das Modell nutzt seine eigenen vorherigen Antworten als externes Arbeitsgedächtnis.
Gemini 2.5 Flash: Zeigt keinen signifikanten Vorteil durch das Scratchpad bei der Abhängigkeitsverfolgung, nutzt es jedoch stark für die Entdeckung von Invarianten.
Probe-Only (ohne Behalten): Das Erstellen von JSON ohne Behalten im Kontext ist für beide Modelle schädlich, da es Kontextbudget verbraucht, ohne den Vorteil der Selbstreferenz zu bieten.

C. Instabilität des Glaubenszustands (Belief State Instability)

Die Fähigkeit, previously discovered components (bereits entdeckte Komponenten) im Gedächtnis zu behalten, variiert dramatisch:

Gemini 2.5 Flash (kleinstes Modell): Zeigt eine perfekt stabile Glaubenshaltung über alle Proben hinweg (keine verlorenen korrekten Kanten).
Gemini 2.5 Pro & 3 Flash (größere Modelle): Leiden unter katastrophalem Kollaps. Gemini 2.5 Pro baut eine gute Karte auf und zerstört sie in einer einzigen Probe. Gemini 3 Flash zeigt einen „Recency Bias" (berichtet nur über kürzlich geprüfte Komponenten).
Fazit: Die Stabilität des Glaubenszustands ist keine Funktion der Modellgröße, sondern hängt von den Trainingszielen und der Architektur ab.

D. Entdeckung von Invarianten und Edge-Typen

LLM-Agenten können alle vier Edge-Typen entdecken (einschließlich der schwer zu findenden DATA_FLOWS_TO), während regelbasierte Baselines (wie BFS-Import) maximal zwei Typen finden.
Die Entdeckung von Invarianten hängt stark von der Prompt-Spezifikation ab. Mit verbesserten Prompts (klare Entscheidungsregeln) stiegen die Scores drastisch an (z. B. von 0,0 auf 0,78 bei Claude).

5. Signifikanz und Implikationen

Das Paper zeigt, dass die Fähigkeit von Code-Agenten, Softwarearchitekturen zu verstehen, nicht nur von der „Intelligenz" des Modells abhängt, sondern von spezifischen Fähigkeiten:

Aktive Erkundung: Die Fähigkeit, strategisch Dateien auszuwählen, ist eine eigenständige, schwer zu erlernende Kompetenz.
Glaubensexternalisierung: Die Fähigkeit, internes Wissen korrekt in strukturierte Formate zu überführen, ist eine kritische Schwachstelle, die oft mit dem eigentlichen Verständnis verwechselt wird.
Zustandspflege: Die Stabilität des Arbeitsgedächtnisses über lange Interaktionen hinweg ist bei großen Modellen nicht garantiert und kann sogar schlechter sein als bei kleineren.

Zukunftsausblick: Die Autoren schlagen vor, Code-Agenten durch hybride Ansätze (AST-Parsing + LLM-Semantik), explizites Training zur Glaubensexternalisierung und verbesserte Zustandsmanagement-Strategien (Self-Scaffolding) zu verbessern. TOCS dient als diagnostisches Werkzeug, um diese Fortschritte zu messen.