Theory of Code Space: Do Code Agents Understand Software Architecture?

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple de l'article scientifique "Theory of Code Space" (Théorie de l'Espace du Code), imagée comme si nous parlions d'explorateurs dans une forêt mystérieuse.

🌲 Le Problème : Les Explorateurs qui Oublient leur Carte

Imaginez que vous envoyez un groupe d'explorateurs (les agents IA) dans une immense forêt inconnue (un code informatique complexe). Leur mission : comprendre comment les arbres sont connectés, où coulent les rivières (les données) et quelles sont les règles secrètes de la forêt.

Jusqu'à présent, on pensait que ces explorateurs étaient des génies parce qu'ils savaient bien tailler des branches isolées (répondre à des questions simples). Mais dès qu'on les met dans une vraie forêt avec des dizaines de sentiers entrelacés, ils se perdent. Ils construisent des cartes mentales incohérentes.

Les chercheurs ont créé un nouveau test, appelé TOCS (Théorie de l'Espace du Code), pour voir si ces IA savent vraiment se faire une "carte mentale" fiable de la forêt, ou si elles font juste semblant.

🗺️ Comment fonctionne le test ?

Au lieu de donner la carte complète à l'explorateur d'un coup, on lui donne un budget limité de lanternes. Il doit choisir quels arbres éclairer un par un.

L'action : Il allume une lampe (ouvre un fichier) pour voir ce qu'il y a dedans.
Le piège : Il ne peut pas tout voir en même temps. Il doit deviner la structure globale à partir de petits morceaux.
Le test de mémoire : Toutes les quelques minutes, on lui demande d'arrêter et de dessiner sa carte actuelle sur un papier (un fichier JSON). C'est là qu'on voit ce qu'il a vraiment compris.

🧪 Les 3 Découvertes Surprenantes

En testant plusieurs modèles d'IA (comme GPT, Claude, Gemini), les chercheurs ont trouvé trois choses très étranges :

1. Le Paradoxe de la "Lanterne vs. La Vue d'Ensemble"

C'est le plus étrange.

L'IA "GPT" préfère explorer pas à pas. Si on lui donne toute la forêt d'un coup, elle se noie dans l'information et fait une mauvaise carte. Mais si elle doit choisir elle-même quels arbres éclairer, elle fait une excellente carte.
L'IA "Gemini" fait l'inverse. Elle déteste explorer pas à pas. Elle a besoin de voir toute la forêt d'un coup pour comprendre. Si elle doit choisir elle-même, elle se trompe et fait une carte pire.
La leçon : Être un bon "explorateur" (savoir quoi chercher) est une compétence en soi, et toutes les IA ne l'ont pas.

2. L'Effet "Carnet de Notes" (Self-Scaffolding)

On a demandé aux IA de garder leur carte dessinée en mémoire pendant qu'elles continuaient à explorer.

Pour GPT, c'était magique. Garder sa carte en mémoire l'aide à mieux comprendre la suite, comme si elle se parlait à elle-même pour se souvenir. Sa performance a bondi de 14 points !
Pour Gemini, cela n'a presque rien changé.
La leçon : Certaines IA savent utiliser leur propre travail précédent pour s'aider (comme un humain qui relit ses notes), d'autres non.

3. Le Syndrome de l'Amnésie Catastrophique

C'est le plus inquiétant.

Le plus petit modèle (Gemini 2.5 Flash) a été le plus stable. Il a construit sa carte petit à petit et ne l'a jamais oubliée.
Le plus gros modèle (Gemini 2.5 Pro), pourtant plus puissant, a eu une crise d'amnésie. Il a construit une belle carte, puis, au moment de la mettre à jour, il a tout effacé et oublié les arbres qu'il avait vus 5 minutes plus tôt.
La leçon : Être plus "intelligent" (plus gros) ne signifie pas nécessairement être plus stable. Parfois, les plus gros modèles oublient tout ce qu'ils ont appris juste avant.

🎯 Pourquoi est-ce important ?

Aujourd'hui, on utilise ces IA pour réparer des logiciels complexes. Si l'IA ne comprend pas l'architecture (la carte de la forêt), elle risque de couper un fil important en croyant qu'il est inutile, ou d'ajouter une pièce qui ne s'adapte pas.

Ce papier nous dit deux choses cruciales :

On ne peut pas juste attendre que l'IA "comprenne" : Il faut lui apprendre à dessiner sa carte mentalement et à la garder à jour.
Toutes les IA sont différentes : Ce qui fonctionne pour une (comme lui donner tout le code d'un coup) peut être fatal pour une autre. Il faut adapter l'outil à l'IA.

En résumé

Imaginez que vous engagez un architecte pour rénover une maison.

Certains architectes sont excellents s'ils peuvent visiter pièce par pièce et noter leurs idées sur un carnet (GPT).
D'autres ont besoin de voir les plans complets de la maison avant de dire un mot (Gemini).
Et certains, même très célèbres, oublient ce qu'ils ont vu dans la cuisine quand ils arrivent dans le salon (Amnésie).

Le but de ce test (TOCS) est de savoir qui est le bon architecte pour votre projet, et comment lui donner les bons outils pour ne pas oublier ses propres plans.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article « Theory of Code Space: Do Code Agents Understand Software Architecture ? » (Théorie de l'Espace de Code : Les Agents de Code Comprennent-ils l'Architecture Logicielle ?).

1. Problématique

Bien que les modèles de langage (LLM) excellent dans la génération de code sur des tâches isolées (comme HumanEval), ils échouent souvent à modifier des bases de code réelles comportant des dizaines de modules interdépendants. Les praticiens constatent un fossé persistant : les agents produisent des résultats incohérents lorsqu'ils doivent comprendre et naviguer dans une architecture logicielle complexe.

L'hypothèse centrale de l'article est que cet échec ne provient pas d'un manque de connaissances syntaxiques, mais d'une incapacité à maintenir une « carte cognitive » (belief state) cohérente et structurée de l'architecture du logiciel lors de l'exploration. Contrairement aux humains qui construisent des modèles mentaux de la dépendance entre les modules, les agents actuels peinent à externaliser et à mettre à jour cette compréhension de manière incrémentale.

2. Méthodologie : Le Benchmark TOCS

Les auteurs introduisent TOCS (Theory of Code Space), un benchmark conçu pour évaluer la capacité des agents à construire, maintenir et mettre à jour des croyances architecturales.

A. Environnement et Génération de Données

Bases de code procédurales : Le benchmark utilise des générateurs de code créant des architectures de type « Pipeline » en Python. Ces bases de code sont conçues pour être non triviales, avec des noms de fichiers neutres (ex: mod_a.py) et des dépendances cachées.
Types de dépendances (4 catégories) :
1. IMPORTS (déclarations statiques d'import).
2. CALLS_API (appels de fonctions dynamiques entre modules).
3. REGISTRY_WIRES (connexions dynamiques via un fichier de configuration JSON).
4. DATA_FLOWS_TO (flux de données orchestrés).
Contraintes Architecturales (Invariants) : Des règles explicites sont « plantées » dans le code (ex: « Le module A ne doit pas importer directement C »), que l'agent doit découvrir.

B. Espace d'Action et Observabilité Partielle

L'agent explore la base de code sous contrainte de budget (nombre d'actions limitées, par défaut 20). Les actions disponibles sont :

LIST : Lister les fichiers d'un dossier (sans contenu).
OPEN : Lire le contenu complet d'un fichier (coûte 1 action).
SEARCH : Trouver des occurrences de texte (sans contenu).
INSPECT : Voir la signature et la docstring d'un symbole (coûte 1 action, utile pour les indices architecturaux).
DONE : Terminer.

C. Sondage de l'État de Croyance (Cognitive Map Probing)

Le cœur de la méthodologie est l'externalisation périodique de l'état de l'agent. Toutes les $K=3$ actions, l'agent est interrompu pour produire un JSON structuré décrivant :

Ses croyances sur les composants (statut, but, symboles exportés).
Les arêtes de dépendance (avec types et niveaux de confiance).
Les invariants découverts.
Les zones inexplorées.

Ce processus génère une série temporelle de cartes architecturales, permettant d'analyser l'évolution de la compréhension, et non seulement l'état final.

D. Modes d'Évaluation

Le benchmark décompose le fossé « Actif-Passif » (Active-Passive Gap) via quatre conditions :

Actif : L'agent choisit ses actions sous budget.
Passif-Total : L'agent reçoit tout le code d'un coup.
Passif-Oracle : L'agent reçoit les fichiers les plus pertinents (sélectionnés par un oracle).
Passif-Replay : L'agent reçoit la trace d'observations d'une exécution active sans avoir à prendre de décisions.

3. Contributions Clés

Cadre TOCS : Un benchmark pour l'évaluation de la construction de croyances architecturales actives.
Générateur de Code : Un outil procédural générant des dépendances de types variés et des invariants vérifiables.
Analyse Expérimentale : Une évaluation de 4 stratégies de base et 6 LLMs de pointe (GPT-5.3-Codex, Claude Sonnet 4.6, Gemini 2.5/3.x).
Découvertes Surprenantes : Identification de trois phénomènes majeurs liés à la dépendance au modèle.
Open Source : Publication du code et du benchmark pour la communauté.

4. Résultats Expérimentaux

A. Performance Globale

Supériorité des LLMs sur les bases : Les agents GPT-5.3-Codex et Claude Sonnet 4.6 surpassent les stratégies basées sur des règles (comme l'analyse AST pure) en découvrant des types de dépendances plus complexes (notamment DATA_FLOWS_TO et REGISTRY_WIRES).
Découverte d'invariants : Avec des prompts améliorés, les LLMs découvrent les contraintes architecturales (F1 ~0.78 pour Claude), alors que les modèles plus anciens ou les bases échouent (F1 = 0).

B. Trois Découvertes Majeures

Le Fossé Actif-Passif dépend du modèle :
- GPT-5.3-Codex : Performe mieux en mode Actif (exploration séquentielle) qu'en mode Passif-Total. L'exploration active évite la surcharge d'information.
- Gemini 2.5 Flash : Performe mieux en mode Passif-Total. Il bénéficie de voir l'ensemble du contexte d'un coup, suggérant que sa stratégie d'exploration active est sous-optimale.
- Conclusion : L'exploration active est une compétence non triviale absente chez certains modèles.
L'Effet d'Auto-Étalonnage (Self-Scaffolding) dépend du modèle :
- Garder les cartes JSON précédentes dans le contexte (mode « Scratchpad ») améliore considérablement GPT-5.3-Codex (+14 points de F1).
- Ce mécanisme n'apporte aucun gain significatif pour Gemini 2.5 Flash sur la traque des dépendances, bien qu'il aide pour les invariants. Cela montre que la capacité à utiliser ses propres sorties comme mémoire externe varie selon l'architecture du modèle.
Instabilité de l'État de Croyance :
- Effondrement Catastrophique : Le modèle Gemini 2.5 Pro (plus grand) construit une bonne carte puis la détruit complètement lors d'un sondage ultérieur, oubliant des composants découverts.
- Stabilité du petit modèle : Le modèle le plus petit (Gemini 2.5 Flash) maintient une stabilité parfaite sans perte d'arêtes correctes.
- Conclusion : La maintenance de l'état de croyance ne dépend pas de l'échelle du modèle, mais probablement des objectifs d'entraînement (ex: tendance à « résumer de zéro » plutôt qu'à « mettre à jour »).

C. Analyse des Erreurs

Une grande partie des erreurs (faux positifs) provient de l'ambiguïté des prompts (ex: confondre un IMPORT et un CALL quand les deux existent).
La précision (Precision) peut être élevée même si la compréhension globale (Recall) est faible, indiquant que les agents peuvent être très sûrs d'eux tout en ayant une vision partielle.

5. Signification et Implications

Pour la conception d'agents : Les résultats suggèrent que les agents actuels doivent intégrer des mécanismes explicites de gestion d'état (comme un « scratchpad » persistant) et combiner l'extraction AST (syntaxique) avec l'analyse sémantique des LLMs.
Pour l'évaluation : Les évaluations basées sur un seul snapshot final sont insuffisantes. L'analyse dynamique (série temporelle) révèle des instabilités et des comportements d'exploration invisibles autrement.
Pour la recherche : Le benchmark TOCS met en lumière que la « compréhension architecturale » n'est pas une compétence monolithique, mais un ensemble de sous-compétences (exploration, externalisation, maintenance d'état) qui varient considérablement d'un modèle à l'autre.

En résumé, TOCS démontre que si les LLMs peuvent comprendre le code, ils peinent encore à construire et maintenir une représentation mentale cohérente de l'architecture logicielle, en particulier lorsqu'ils doivent le faire de manière active et incrémentale.