Theory of Code Space: Do Code Agents Understand Software Architecture?

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un equipo de arquitectos de software (los agentes de IA) a los que les pides que diseñen y mantengan un rascacielos gigante.

Hasta ahora, estos arquitectos eran geniales para dibujar una sola habitación o reparar una ventana aislada. Pero cuando les pedimos que entendieran todo el edificio, con sus 50 pisos, sus tuberías ocultas y sus reglas de seguridad, se perdían. Es como si pudieran ver una pieza del rompecabezas, pero no lograran imaginar la imagen completa.

Este paper presenta una nueva prueba llamada TOCS (Teoría del Espacio de Código) para ver si estos arquitectos realmente entienden la estructura del edificio o si solo están adivinando.

Aquí tienes la explicación de lo que descubrieron, usando analogías sencillas:

1. El Problema: ¿Mapa mental o lista de compras?

Antes, las IAs leían el código como si tuvieran una lista de compras: "Necesito arreglar el grifo". Pero en la vida real, para arreglar un grifo en un edificio complejo, necesitas saber cómo se conectan las tuberías con el tanque de agua y la caldera.

Los investigadores crearon un mundo virtual de código (como un videojuego de construcción) donde el agente no puede ver todo el edificio de golpe. Tiene que ir abriendo archivos uno por uno, como si entrara en habitaciones oscuras con una linterna, y gastar "presupuesto" (acciones) para ver qué hay dentro.

Cada pocos pasos, el agente debe dibujar un mapa mental (un JSON) de lo que cree que es la estructura del edificio. Si el mapa es correcto, gana puntos. Si olvida una tubería o dibuja una pared donde no existe, pierde puntos.

2. Los Tres Descubrimientos Sorprendentes

A. La "Brecha Activa-Pasiva" (¿Es mejor explorar o recibir el plano completo?)

Imagina que tienes dos estudiantes:

El Estudiante A (GPT): Le va mejor si tiene que explorar el edificio paso a paso, abriendo puertas y descubriendo cosas. Si le das el plano completo de golpe, se abruma y lo hace peor. Para él, explorar activamente es una habilidad especial que le ayuda a entender mejor.
El Estudiante B (Gemini): Le va al revés. Si le das el plano completo de golpe, lo entiende perfecto. Pero si le obligas a explorar paso a paso, se confunde y hace un mal trabajo. Para él, ver todo de una vez es su superpoder.

Lección: No todos los arquitectos aprenden igual. Algunos necesitan "tocar" las cosas para entenderlas; otros necesitan ver el "todo" para entender las partes.

B. El "Andamio Mental" (¿Ayuda escribir lo que piensas?)

A veces, se les pidió a los agentes que escribieran su mapa mental en un papel (el "JSON") y que lo guardaran en su memoria para usarlo después.

Para el Estudiante A, ver su propio mapa escrito le sirvió como un andamio: le ayudó a no olvidar lo que ya sabía y a construir mejor el siguiente piso. Su mapa mental se volvió más fuerte.
Para el Estudiante B, escribir el mapa no le ayudó en absoluto. De hecho, a veces le distrajo.

Lección: La técnica de "pensar en voz alta" (escribir su razonamiento) funciona para algunos modelos, pero no para otros. No es una solución mágica universal.

C. La "Amnesia Catastrófica" (El gigante que olvida todo)

Aquí está la parte más extraña. Compararon un modelo pequeño (Gemini Flash) con uno gigante (Gemini Pro).

El modelo pequeño fue increíblemente estable: recordaba cada tubería y cada pared que había visto, sin olvidar nada.
El modelo gigante, sin embargo, sufría de amnesia catastrófica. Podía construir un mapa perfecto durante 9 pasos, y en el paso 10, de repente, olvidaba todo lo que había descubierto antes, como si el edificio se hubiera desvanecido de su mente.

Lección: Más grande no siempre significa más inteligente o más estable. A veces, los modelos más pequeños son más disciplinados para recordar lo que han aprendido.

3. ¿Por qué es importante esto?

Hasta ahora, pensábamos que si una IA podía escribir código, entendía la arquitectura del software. Este estudio nos dice que no es así.

Pueden escribir una función perfecta, pero no saber cómo encaja en el resto del sistema.
Pueden olvidar lo que descubrieron hace un momento.
Pueden confundirse si no les damos la información de la manera correcta (de golpe o paso a paso).

En resumen

Los autores crearon un examen de conducción para arquitectos de IA. No solo miran si saben conducir el coche (escribir código), sino si tienen un mapa mental del tráfico, las calles y las reglas de circulación.

Descubrieron que:

Algunos conductores aprenden mejor conduciendo por su cuenta; otros prefieren un GPS completo.
Algunos necesitan llevar un cuaderno de notas para no perderse; otros se distraen con él.
Los conductores "gigantes" a veces olvidan el camino más rápido que los conductores "pequeños".

Este estudio es una llamada de atención para los creadores de IA: no basta con que la IA escriba código; tenemos que enseñarle a construir y mantener un mapa mental sólido de todo el sistema. Y para eso, necesitamos herramientas nuevas (como TOCS) para medir si realmente lo están haciendo.

Each language version is independently generated for its own context, not a direct translation.

1. El Problema: La Brecha de Comprensión Arquitectónica

Aunque los modelos de lenguaje grandes (LLM) obtienen puntuaciones excepcionales en la generación de código aislado (como en los benchmarks HumanEval), los practicantes reportan una brecha persistente: estos modelos fallan al modificar bases de código reales que contienen decenas de módulos interdependientes.

Hipótesis central: Los agentes de código no logran mantener una "cognición espacial" o un mapa cognitivo coherente de la arquitectura del software mientras exploran el código bajo condiciones de observabilidad parcial (no pueden ver todo el repositorio a la vez).
Falta de diagnóstico: Los benchmarks existentes (como SWE-bench) evalúan la corrección del parche final, pero no miden la evolución de la comprensión arquitectónica interna del agente ni su capacidad para construir y actualizar creencias sobre las dependencias del sistema.

2. Metodología: Theory of Code Space (TOCS)

Los autores proponen TOCS, un benchmark diseñado para evaluar la construcción activa de creencias arquitectónicas en agentes de IA.

A. Entorno y Acción

Generación Procedural: Se crean bases de código sintéticas con una arquitectura de tipo "Pipeline" controlada. Estas incluyen módulos de infraestructura, etapas de procesamiento, adaptadores y módulos de distracción.
Observabilidad Parcial: El agente opera con un presupuesto de acciones limitado (B=20). No puede ver todo el código de una vez.
Acciones Disponibles:
- LIST(d): Listar archivos en un directorio.
- OPEN(f): Leer el contenido completo de un archivo (costo: 1 acción).
- SEARCH(q): Buscar rutas de archivos y números de línea (sin contenido).
- INSPECT(f, s): Ver firma y docstring de un símbolo (costo: 1 acción).
Tipos de Dependencias: El sistema evalúa la detección de cuatro tipos de bordes:
1. IMPORTS (Estáticos).
2. CALLS_API (Llamadas en tiempo de ejecución).
3. REGISTRY_WIRES (Conexiones dinámicas vía configuración).
4. DATA_FLOWS_TO (Flujos de datos entre módulos).

B. Probing de Mapas Cognitivos

Cada $K=3$ acciones, el sistema interrumpe al agente para que externalice su estado de creencia en un formato JSON estructurado. Este mapa incluye:

Componentes observados/inferidos y sus propósitos.
Bordes de dependencia con tipos y niveles de confianza.
Invariantes arquitectónicas descubiertas (restricciones planteadas en el código, como "el módulo A no debe importar al C").
Rastreo de incertidumbre (regiones no exploradas).

C. Modos de Evaluación (Descomposición de la Brecha Activo-Pasivo)

El benchmark mide la Active-Passive Gap (APG) descomponiéndola en cuatro condiciones:

Activo: El agente elige qué archivos abrir bajo presupuesto.
Pasivo-Full: El agente recibe todo el código de una vez.
Pasivo-Oracle: El agente recibe los archivos óptimos seleccionados por un oráculo.
Pasivo-Replay: El agente recibe la misma secuencia de observaciones que un agente activo, pero sin tomar decisiones (solo procesa la información).

3. Contribuciones Clave

Marco TOCS: El primer benchmark para la construcción activa de creencias arquitectónicas en código.
Generador Procedural: Un generador de código con 4 tipos de bordes tipados e invariantes plantados (restricciones verificables).
Hallazgos Empíricos: Experimentos con 4 estrategias basales y 6 LLMs de vanguardia (GPT-5.3-Codex, Claude Sonnet 4.6, Gemini 2.5/3 series) que revelan comportamientos inesperados.
Código Abierto: Liberación del benchmark para evaluación comunitaria.

4. Resultados Principales

A. La Brecha Activo-Pasivo es Dependiente del Modelo

Contrario a la intuición de que "ver todo es mejor", la capacidad de explorar activamente varía drásticamente entre modelos:

GPT-5.3-Codex: Supera a la condición pasiva (recibir todo el código a la vez). La exploración activa le permite procesar la información de forma enfocada, evitando la sobrecarga informativa. ( $APG < 0$ ).
Gemini 2.5 Flash: Funciona significativamente mejor en modo pasivo (recibir todo el código). La exploración activa le cuesta más, sugiriendo que su estrategia de selección de archivos es ineficiente o que su razonamiento se beneficia del contexto global inmediato. ( $APG > 0$ ).

B. Descubrimiento de Tipos de Bordes

Los agentes LLM (especialmente GPT y Claude) lograron descubrir los cuatro tipos de bordes, incluyendo los más difíciles como DATA_FLOWS_TO y REGISTRY_WIRES.
Las estrategias basales (como BFS-Import) solo descubrieron hasta dos tipos, fallando en las dependencias semánticas y dinámicas.

C. Inestabilidad del Estado de Creencia (Belief State Instability)

Este es uno de los hallazgos más sorprendentes:

Gemini 2.5 Pro: Muestra un colapso catastrófico. Construye un mapa razonable hasta el paso 9, pero en una sola consulta de sondeo (probe) pierde todas las conexiones correctas descubiertas anteriormente.
Gemini 3 Flash: Muestra sesgo de recencia, reportando solo los componentes examinados recientemente y olvidando el resto.
Gemini 2.5 Flash (Modelo más pequeño): Mantiene una estabilidad perfecta, sin perder ninguna arista correcta a lo largo de todas las consultas.
Conclusión: La estabilidad de la memoria arquitectónica no depende del tamaño del modelo, sino de los objetivos de entrenamiento y la capacidad de actualización incremental.

D. Efecto de "Andamiaje" (Scaffolding)

Para GPT-5.3-Codex, retener el JSON de las consultas anteriores en el contexto (modo scratchpad) mejora el F1 en 14 puntos. El modelo usa sus propios mapas previos como memoria de trabajo externa.
Para Gemini, este efecto es nulo o negativo en la detección de dependencias, aunque ayuda en la descubrimiento de invariantes. Esto indica que el mecanismo de auto-andamiaje es específico del modelo.

5. Significado e Implicaciones

Reevaluación de la "Comprensión": Un agente puede navegar y leer código (exploración) pero fallar en externalizar o mantener una representación coherente de la arquitectura (creencia). La externalización de la fe es una habilidad distinta a la comprensión interna.
Diseño de Agentes: Los agentes actuales (SWE-agent, Aider, etc.) carecen de mecanismos explícitos para construir y mantener mapas arquitectónicos estructurados. Se sugieren cuatro vías de mejora:
- Enfoques híbridos (AST + Semántica LLM).
- Entrenamiento específico para la externalización de creencias.
- Optimización de estrategias de exploración (selección de archivos).
- Gestión explícita de estado (usar el contexto como memoria acumulativa).
Importancia de la Especificación del Prompt: Pequeños cambios en las instrucciones de la consulta (probe) pueden alterar drásticamente los resultados (ej. reducir falsos positivos en un 45%), lo que sugiere que muchas "fallos de capacidad" son en realidad fallos de especificación del prompt.

Conclusión

TOCS demuestra que la capacidad de los agentes de IA para entender la arquitectura de software es frágil, dependiente del modelo y altamente sensible a cómo se les pide que externalicen su conocimiento. La investigación revela que la exploración activa no es una habilidad universalmente superior, y que la estabilidad de la memoria a largo plazo es un cuello de botella crítico que no escala simplemente con el tamaño del modelo.