Theory of Code Space: Do Code Agents Understand Software Architecture?

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een nieuwe stad binnenkomt, maar je hebt geen kaart, geen GPS en je mag maar één straat tegelijk verkennen voordat je een pauze moet nemen. Je doel is om een complete, betrouwbare kaart van de stad te tekenen, inclusief welke gebouwen met elkaar verbonden zijn en welke regels er gelden (bijvoorbeeld: "je mag niet rechtstreeks van het station naar het ziekenhuis lopen, je moet via het park").

Dit is precies wat dit onderzoek, getiteld "Theory of Code Space" (TOCS), doet, maar dan met software in plaats van steden.

Hier is een simpele uitleg van de bevindingen, vertaald naar alledaagse taal:

1. Het Probleem: Slimme robots die de weg kwijt raken

We weten dat kunstmatige intelligentie (AI) heel goed is in het schrijven van losse stukjes code, net als iemand die goed kan zinnen maken. Maar als je die AI een heel groot, complex computerprogramma laat aanpassen (met tientallen bestanden die met elkaar verbonden zijn), raken ze vaak de draad kwijt. Ze weten niet hoe de verschillende onderdelen samenwerken. Ze zien de bomen, maar niet het bos.

De onderzoekers wilden weten: Begrijpen deze AI's echt de architectuur (het blauwdruk) van de software, of raden ze het maar?

2. De Test: Een spelletje "Verken en Teken"

Om dit te testen, hebben ze een nieuw spelletje bedacht (het TOCS-benchmark):

De Stad: Ze creëerden virtuele softwaresteden met een verborgen structuur.
De Beperking: De AI mag niet alles tegelijk zien. Ze moeten "openen" (lezen) van bestanden, maar ze hebben een budget (bijvoorbeeld: je mag maar 20 bestanden bekijken).
De Taak: Elke paar stappen moet de AI een kaart tekenen in een gestructureerd formaat (een JSON-lijstje) waarin staat: "Ik denk dat bestand A met bestand B verbonden is."
De Vraag: Hoe goed is die kaart? En verandert die kaart als de AI meer informatie krijgt?

3. De Drie Grote Verassingen (De "Aha!"-momenten)

De onderzoekers keken naar verschillende AI-modellen en vonden drie verrassende patronen:

A. De "Actief vs. Passief" Klap (De Actieve-Passieve Kloof)

Sommige mensen leren beter door zelf te zoeken; anderen leren beter als iemand hen alles uitlegt. Dit geldt ook voor AI, maar het is willekeurig welke het is.

Model A (zoals GPT): Deze AI werd slimmer door zelf op zoek te gaan naar de bestanden. Als je haar alle bestanden tegelijk gaf, raakte ze in de war (te veel informatie). Ze bouwde een betere kaart door stap voor stap te verkennen.
Model B (zoals Gemini): Deze AI werd dommer door zelf te zoeken. Ze had liever dat iemand haar alle bestanden tegelijk gaf. Als ze zelf moest kiezen welke bestanden ze opende, maakte ze slechte keuzes en raakte ze de weg kwijt.
De les: "Actief verkennen" is geen vanzelfsprekende vaardigheid voor elke AI. Sommigen zijn beter in het luisteren dan in het zoeken.

B. De "Zelf-Bouwsteun" (Self-Scaffolding)

Stel je voor dat je een muur bouwt. Soms helpt het om tussendoor even te kijken naar wat je al hebt gebouwd, zodat je de volgende baksteen op de juiste plek zet.

Model A gebruikte zijn eigen eerder getekende kaarten als een hulpmiddel. Door die kaarten in zijn geheugen te houden, bouwde hij een steeds betere kaart. Het was alsof hij zichzelf hielp door te zeggen: "Kijk, dit heb ik al gevonden, dus nu zoek ik hier verder."
Model B deed dit niet. Het gebruikte zijn eigen kaarten niet om zich te verbeteren. Voor hen was het tekenen van de kaart alleen een verslag, geen hulpmiddel.

C. Het "Vergeten" Probleem (Belief Instability)

Dit was het meest dramatische resultaat.

Het kleine model: Een kleiner AI-model hield zijn kaart perfect stabiel. Wat hij een uur geleden had gevonden, vergeten hij niet.
Het grote model: Een veel groter, krachtiger model had een catastrofale ineenstorting. Het bouwde een mooie kaart, maar bij de volgende check was de helft van de verbindingen plotseling verdwenen uit zijn hoofd. Het vergeten wat het net had ontdekt.
De les: Groter is niet altijd beter. Soms is een kleiner model betrouwbaarder omdat het zijn "geheugen" beter beheert.

4. Waarom is dit belangrijk?

Vroeger dachten we: "Als de AI de code kan schrijven, begrijpt hij de architectuur ook wel." Dit onderzoek bewijst het tegenovergestelde.

AI's kunnen goed code genereren, maar ze worstelen met het begrijpen van het grote geheel.
Ze vergeten wat ze net hebben geleerd.
Ze hebben soms hulp nodig om hun eigen kennis te ordenen (zoals het houden van een notitieblok).

Conclusie

De onderzoekers hebben een nieuwe "rijbewijstest" voor AI ontwikkeld (TOCS). Deze test laat zien dat niet alle AI's even goed zijn in het bouwen van een mentaal beeld van complexe systemen. Sommige zijn uitstekende verkenners, anderen zijn betere luisteraars, en sommige vergeten hun eigen ontdekkingen te snel.

Om AI's echt slim te maken voor softwareontwikkeling, moeten we ze niet alleen laten "denken", maar ze ook leren hoe ze hun eigen kennis moeten vasthouden en ordenen, net zoals een mens een kaart tekent terwijl hij door een stad loopt.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Theory of Code Space: Do Code Agents Understand Software Architecture?" in het Nederlands.

Titel: Theory of Code Space (TOCS): Begrijpen Code Agents Software-architectuur?

Auteurs: Grigory Sapunov (Intento)
Status: Preprint (onder review), maart 2026

1. Het Probleem

Hoewel Large Language Models (LLM's) uitstekende resultaten behalen op benchmarks voor codegeneratie (zoals HumanEval), rapporteren praktici een blijvende kloof: modellen die eenvoudige problemen oplossen, falen vaak bij het wijzigen van echte, complexe codebases met tientallen onderling afhankelijke modules. De huidige benchmarks meten voornamelijk de correctheid van de output (bijv. bugfixes), maar niet of de agent een coherent architectonisch inzicht (een "cognitieve kaart") opbouwt en behoudt tijdens het verkennen van de code.

De auteurs hypotheseren dat dit falen voortkomt uit dezelfde latent state-maintenance problemen die ook bij ruimtelijke redenering worden waargenomen: agents kunnen geen stabiel intern model van de omgeving onderhouden wanneer ze actief informatie moeten verzamelen onder beperkte zichtbaarheid.

2. Methodologie: Theory of Code Space (TOCS)

De auteurs introduceren TOCS, een benchmark die het raamwerk van "Theory of Space" (TOS) uit de ruimtelijke redenering transplanteert naar software-engineering.

Omgeving: In plaats van een rasterwereld, bestaat de omgeving uit procedurale codebases (Python) met een gecontroleerde architectonische structuur (Pipeline-architectuur).
Actie-ruimte: De agent heeft een begroting van acties (standaard $B=20$ $B = 20$ ) en kan:
- LIST: Bestandsnamen in een map zien (geen inhoud).
- OPEN: Volledige inhoud van een bestand lezen (kost 1 actie).
- SEARCH: Locaties vinden (geen inhoud).
- INSPECT: Type-signaturen en docstrings bekijken (kost 1 actie, geen volledige inhoud).
- DONE: Beëindigen.
Partial Observability: De agent moet actief beslissen welke bestanden te openen om de architectuur te begrijpen.
Cognitieve Kaart Probing: Elke $K=3$ $K = 3$ acties wordt de agent onderbroken en gevraagd om zijn huidige architecturale overtuiging (belief state) te externaliseren in een gestructureerd JSON-formaat. Dit omvat:
- Componenten (status, doel, geëxporteerde symbolen).
- Afhankelijkheidsedges (met types: IMPORTS, CALLS_API, DATA_FLOWS_TO, REGISTRY_WIRES).
- Invarianten (architecturale beperkingen, zoals "Module A mag niet direct importeren van C").
- Onzekerheids-tracking.
Evaluatiemodes:
- Active: Agent kiest acties zelf.
- Passive-Full: Agent ontvangt alle bestanden direct.
- Passive-Oracle: Agent ontvangt de "beste" bestanden (maximale connectiviteit).
- Passive-Replay: Agent krijgt exact dezelfde observaties als een eerdere actieve run, maar zonder zelf te beslissen.

3. Belangrijkste Bijdragen

TOCS Benchmark Framework: Het eerste framework dat active architecturale geloofsconstructie (belief construction) in code evalueert via periodieke probing.
Procedurale Generator: Een generator die codebases maakt met vier types edges en "geplante" architecturale invarianten (beperkingen) die ontdekt moeten worden.
Empirische Bevindingen: Pilot-experimenten met 4 baselines en 6 frontier LLM's (GPT-5.3-Codex, Claude Sonnet 4.6, diverse Gemini-versies) tonen drie verrassende fenomenen.
Open Source Release: De volledige toolkit is beschikbaar gesteld voor de gemeenschap.

4. Resultaten en Analyse

De experimenten leverden drie cruciale bevindingen op:

A. De Actief-Passief Kloof is Model-afhankelijk (Active-Passive Gap)

In tegenstelling tot ruimtelijke benchmarks waar actieve exploratie altijd slechter presteert, hangt de richting van de kloof af van het model:

GPT-5.3-Codex: Presteert beter bij actieve exploratie dan bij het ontvangen van alle bestanden tegelijk ( $APG = -0.22$ ). Dit suggereert dat het model overbelast raakt door te veel informatie tegelijk ("information overload") en baat heeft bij gefocuste, sequentiële verwerking.
Gemini 2.5 Flash: Presteert beter bij passieve toegang tot alle bestanden ( $APG = +0.23$ ). Dit model heeft moeite met het selecteren van relevante bestanden tijdens actieve exploratie; zijn beslissingen lijken zijn begrip zelfs te schaden.

B. Zelf-Scaffolding is Model-afhankelijk

Het behouden van de gegenereerde JSON-kaarten in de context (als "scratchpad") werkt niet voor alle modellen:

GPT-5.3-Codex: Profiteert enorm (+14 punten F1) van het behouden van eerdere kaarten. Het gebruikt zijn eigen output als extern werkgeheugen om de exploratie te sturen.
Gemini 2.5 Flash: Geen significant voordeel op afhankelijkheidskaarten, maar wel een groot voordeel bij het ontdekken van invarianten. Dit toont aan dat "zelf-scaffolding" een vaardigheid is die per model verschilt.

C. Belief State Stabiliteit varieert drastisch

Gemini 2.5 Flash (Kleinste model): Behoudt een perfect stabiel geloof; verliest geen enkele correcte edge tussen probes.
Gemini 2.5 Pro & 3 Flash (Grotere modellen): Toonen catastrophale instabiliteit.
- Gemini 2.5 Pro: Bouwt een redelijke kaart op, maar vernietigt deze in één enkele probe (vergeten van eerder ontdekte componenten).
- Gemini 3 Flash: Toont "recency bias" (rapporteert alleen recent bekeken componenten).
Conclusie: Belief maintenance is geen functie van modelgrootte, maar waarschijnlijk gerelateerd aan trainingsdoelen (bijv. of het model probeert te "samenvatten" in plaats van "incrementeel te updaten").

Overige resultaten:

LLM-agents ontdekken alle vier de edge-types (inclusief zeldzame DATA_FLOWS_TO), terwijl regelgebaseerde baselines (zoals BFS-Import) hierin falen.
Precision-Recall Decoupling: Sommige modellen (zoals Claude) hebben near-perfect precisie maar lage recall, terwijl anderen (GPT) hogere recall hebben.
Invariant Discovery: Met verbeterde prompts konden modellen architecturale beperkingen ontdekken (tot 78% F1 voor Claude), wat eerder onmogelijk was.

5. Betekenis en Implicaties

Nieuwe Evaluatiestandaard: TOCS vult een gat in de huidige benchmarks door niet alleen de eindoutput te testen, maar het proces van architecturaal inzicht en het behoud van die kennis in de tijd.
Design van Code Agents:
- Agents moeten niet alleen code genereren, maar ook een gestructureerd architecturaal model onderhouden.
- De keuze tussen actieve exploratie en passieve contextinname moet model-specifiek worden geoptimaliseerd.
- "Belief externalization" (het vertalen van intern inzicht naar gestructureerde data) is een kritieke bottleneck die getraind moet worden.
Prompt Engineering: De kwaliteit van de externalisatie is sterk afhankelijk van de prompt-specificatie (bijv. duidelijke regels voor edge-types). Wat eruitziet als een model-capaciteitsprobleem, kan een prompt-probleem zijn.
Belang van State Management: Het behouden van een gestructureerde staat (scratchpad) kan de prestaties van sterke modellen aanzienlijk verbeteren, maar is geen universele oplossing.

Conclusie:
De paper toont aan dat huidige AI-code-agents moeite hebben met het onderhouden van een coherent, dynamisch model van software-architectuur. De "Theory of Code Space" biedt een diagnostisch raamwerk om deze beperkingen te meten en benadrukt dat architecturaal inzicht een fundamenteel andere vaardigheid is dan louter codegeneratie. De bevindingen dat grotere modellen soms minder stabiel zijn dan kleinere, en dat actieve exploratie niet altijd beter is, daagt de huidige intuïtie in de AI-community uit.