Theory of Code Space: Do Code Agents Understand Software Architecture?

O artigo apresenta o "Theory of Code Space" (ToCS), um benchmark que avalia a capacidade de agentes de IA de construir e manter crenças arquiteturais coerentes em bases de código, revelando que a eficácia da exploração ativa, o uso de mapas de crenças estruturados e a estabilidade da memória variam significativamente entre diferentes modelos de linguagem.

Grigory Sapunov

Publicado Mon, 09 Ma
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você pediu a um assistente de IA para organizar uma biblioteca gigante e bagunçada, onde os livros estão espalhados em centenas de prateleiras, sem um catálogo visível. O assistente não pode ver tudo de uma vez; ele tem que caminhar pela biblioteca, pegar um livro de cada vez, ler o título e tentar desenhar um mapa mental de onde cada coisa está.

É exatamente isso que o artigo "Teoria do Espaço de Código" (Theory of Code Space - TOCS) investiga. Os autores criaram um teste para descobrir se os "robôs programadores" (agentes de IA) realmente entendem como o software é construído ou se eles apenas estão "chutando" enquanto olham para os arquivos.

Aqui está a explicação simplificada, usando analogias do dia a dia:

1. O Problema: O "Mapa Mental" Quebrado

Os modelos de IA atuais são ótimos em escrever pequenos trechos de código (como resolver um quebra-cabeça de uma peça só). Mas, quando precisam mexer em um projeto grande com dezenas de arquivos interligados, eles tendem a se perder.

Os pesquisadores compararam isso a um explorador em uma caverna escura:

  • O que deveria acontecer: O explorador entra, vê uma caverna, anota onde estão as paredes, e constrói um mapa mental coerente de todo o lugar.
  • O que acontece na realidade: Muitos agentes de IA olham para uma caverna, esquecem o que viram 5 minutos atrás, ou acham que a caverna mudou de lugar. Eles não conseguem manter um "mapa" estável do software enquanto exploram.

2. O Teste: A "Biblioteca com Orçamento"

Para testar isso, os autores criaram o TOCS. Eles geraram projetos de software artificiais (como se fossem bibliotecas) e deram aos agentes de IA uma tarefa:

  • Orçamento limitado: O agente tem "dinheiro" (ações) para abrir apenas alguns arquivos.
  • Exploração ativa: Ele decide qual arquivo abrir primeiro.
  • O "Check-up" (Probing): A cada 3 passos, o agente é interrompido e obrigado a desenhar o mapa atual dele em um formato estruturado (um JSON), como se dissesse: "Até agora, sei que o Arquivo A fala com o B, e que o C é proibido de tocar no D".

O objetivo é ver se esse mapa mental fica melhor com o tempo ou se ele começa a alucinar e esquecer coisas que já viu.

3. As 3 Descobertas Surpreendentes (O "Pulo do Gato")

Os pesquisadores testaram vários modelos de IA (como GPT-5, Claude, Gemini) e descobriram coisas muito interessantes:

A. A "Luz do Dia" vs. "Exploração no Escuro" (A Lacuna Ativo-Passiva)

  • Analogia: Imagine que você precisa decorar uma casa.
    • Modelo A (GPT-5): Ele aprende melhor quando pode andar pela casa, abrir portas e descobrir as coisas sozinho. Se você der a ele um panfleto com a planta de toda a casa de uma vez, ele se confunde e faz pior. Ele precisa "explorar" para entender.
    • Modelo B (Gemini): Ele é o oposto. Ele faz pior quando tem que escolher o que olhar. Se você der a ele a planta completa de uma vez, ele entende tudo. Se ele tiver que andar pela casa sozinho, ele se perde.
  • Conclusão: Nem toda IA é boa em "explorar". Para alguns, a exploração ativa é uma habilidade que falta.

B. O "Caderno de Anotações" (Auto-Andaimagem)

  • Analogia: Alguns agentes usam o que escreveram no "check-up" anterior como um caderno de anotações para ajudar no próximo passo.
  • O que aconteceu: O modelo GPT-5 usou seus próprios mapas anteriores como uma "muleta" para melhorar. Ele olhou para o que escreveu antes e disse: "Ah, esqueci dessa parte, vou corrigir". Isso melhorou muito seu desempenho.
  • O outro lado: Outros modelos (como o Gemini) não usaram esse caderno. Escrever o mapa não os ajudou a lembrar das coisas. Para eles, o caderno era apenas papel gasto.

C. A "Amnésia Catastrófica" (Estabilidade do Mapa)

  • Analogia: Imagine dois estudantes estudando para uma prova.
    • O Estudante Pequeno (Gemini 2.5 Flash): É o menor dos modelos, mas é incrivelmente estável. Ele vê um arquivo, anota no mapa, e nunca esquece. Seu mapa só cresce, nunca diminui.
    • O Estudante Gigante (Gemini 2.5 Pro): É o modelo mais inteligente e grande. Ele começa a desenhar um mapa lindo, mas de repente, no próximo "check-up", ele esquece tudo que descobriu antes. O mapa dele desmorona.
  • Conclusão: Ser um modelo "maior" ou "mais inteligente" não garante que ele consiga lembrar do que viu. A capacidade de manter a memória de longo prazo varia muito e não depende apenas do tamanho do cérebro da IA.

4. Por que isso importa?

Hoje, as empresas querem usar IAs para reescrever sistemas inteiros de bancos, hospitais e governos. Se a IA não consegue manter um "mapa mental" estável de como o software funciona, ela vai quebrar coisas sem querer, criar dependências proibidas ou esquecer regras de segurança.

O artigo mostra que:

  1. Precisamos treinar as IAs não apenas para "escrever código", mas para manter mapas mentais do projeto.
  2. O jeito que fazemos a pergunta (o "prompt") importa muito. Às vezes, a IA parece burra porque o teste foi mal formulado, não porque ela não sabe.
  3. A "exploração ativa" (decidir o que olhar) é uma habilidade difícil que nem todas as IAs têm.

Resumo Final

O TOCS é como um exame de direção para IAs. Em vez de apenas ver se elas sabem dirigir (escrever código), o teste vê se elas sabem ler o mapa, lembrar de onde passaram e não bater no carro do vizinho por esquecimento. A descoberta principal é que algumas IAs são ótimas em dirigir sozinhas, outras precisam de um GPS completo na mão, e algumas, por mais inteligentes que pareçam, esquecem onde estão a cada 5 minutos.