Represented Is Not Computed: A Causal Test of… — Explicação em linguagem simples

Imagine que você tem um chef de cozinha robótico muito inteligente, mas misterioso. Você lhe entrega um cartão de receita com três ingredientes: um número grande ( $N$ ), um número base ( $B$ ) e um número de "slot" específico ( $D$ ). A tarefa do chef é descobrir um dígito específico do número grande, mas apenas após convertê-lo para a "língua" da base.

Por exemplo, se o número grande for 255, a base for 16 e você pedir o slot 0, o chef precisa fazer alguns cálculos para lhe dizer a resposta.

Os pesquisadores deste artigo quiseram espiar dentro do cérebro do chef para ver como ele resolve esse quebra-cabeça. Eles tinham uma teoria muito específica sobre como o chef deveria estar pensando e queriam ver se isso era realmente o que estava acontecendo.

Aqui está a história do que eles descobriram, dividida em etapas simples:

1. O Chef é um Gênio na Tarefa

Primeiro, eles verificaram se o robô realmente conseguia fazer o trabalho. Eles o treinaram com milhares de exemplos e depois o testaram com números novos e nunca vistos.

O Resultado: O robô foi quase perfeito (99,83% de precisão). Ele sabia exatamente qual resposta dar. Portanto, sabemos que ele pode resolver o problema.

2. A Teoria do "Projeto" (O que pensávamos que estava acontecendo)

O problema matemático tem uma solução clara, passo a passo (como um projeto). Para obter a resposta, teoricamente você precisa:

Calcular um número auxiliar ( $B^D$ ).
Dividir o número grande por esse auxiliar.
Arredondar para baixo.
Pegar o resto.

Os pesquisadores achavam que o robô provavelmente estava seguindo esse projeto. Eles usaram uma ferramenta chamada "Sonda Linear" (pense nela como um detector de metais) para escanear o cérebro do robô.

A Descoberta: O detector de metais apitou! Ele descobriu que o cérebro do robô de fato continha esses números exatos. O "número auxiliar" e o "número arredondado para baixo" estavam claramente visíveis nos pensamentos internos do robô.
A Armadilha: Como eles encontraram esses números, assumiram que o robô os estava usando para resolver o problema. Parecia que o robô estava seguindo o projeto perfeitamente.

3. A Verificação da Realidade (O Teste Causal)

É aqui que o artigo fica interessante. Apenas porque o robô tem os números em seu cérebro não significa que ele os está usando para tomar a decisão.

Para descobrir o que o robô estava realmente usando, os pesquisadores realizaram uma "cirurgia" no cérebro do robô usando dois métodos:

Método A: O Botão de Mudo (Ablação)
Eles tentaram "mudar" partes específicas do cérebro que deveriam passar os "números auxiliares" para a resposta final.
- O Resultado: Surpreendentemente, mudar as partes que continham a matemática complexa não prejudicou muito o robô. Mas quando eles mudaram a primeira parte onde o robô olhava para o "número de slot" ( $D$ ), o robô imediatamente esqueceu como responder. Não importava se a matemática complexa estava lá ou não; o robô a ignorava.
Método B: A Troca (Patching)
Eles pegaram um robô "doador" que tinha um número de "slot" ( $D$ ) diferente, mas o mesmo número grande e a mesma base. Eles trocaram os sinais cerebrais do doador para o robô original.
- O Resultado: O robô original de repente deu a resposta do doador. Mas isso só aconteceu se o número de slot ( $D$ ) fosse diferente. Se eles trocavam o número grande ( $N$ ) ou a base ( $B$ ), o robô não se importava.
- A Conclusão: O robô não estava usando a matemática complexa (o projeto) para decidir a resposta. Ele estava apenas ouvindo o "número de slot" ( $D$ ) diretamente.

4. A Descoberta do "Caminho Oculto"

Finalmente, eles mapearam o caminho real que a informação percorreu.

O que eles esperavam: Uma única estrada organizada, onde $N$ , $B$ e $D$ se encontram, são misturados em uma fórmula matemática complexa e então produzem a resposta.
O que eles encontraram: O robô tem três estradas pequenas e separadas. Uma estrada carrega o número grande, uma carrega a base e uma carrega o número de slot. Essas estradas permanecem separadas durante quase toda a jornada. Elas só se encontram no último segundo, logo antes da resposta ser escrita. O robô não construiu os "números auxiliares" complexos e os passou adiante; ele apenas manteve os ingredientes separados até o final.

A Grande Lição: "Representado" não é "Computado"

O título principal do artigo diz tudo: "Representado Não é Computado."

Representado: O cérebro do robô conteria os números da matemática complexa. Se você olhasse para o cérebro, poderia vê-los claramente (como encontrar um mapa em uma mochila).
Computado: O robô não usou esses números para dirigir o carro. Ele pegou um atalho.

A Analogia:
Imagine que você está dirigindo para uma festa. Você tem um mapa detalhado, desenhado à mão, na sua caixa de luvas que mostra cada curva, semáforo e atalho (a matemática "representada").

A Sonda: Você olha na caixa de luvas e diz: "Aha! Você tem o mapa! Você deve estar usando o mapa para dirigir!"
A Realidade: Você na verdade apenas memorizou a rota e está dirigindo por instinto. Se você tirar o mapa, você ainda chega lá. Se você trocar o mapa pelo mapa de outra pessoa, você não se importa, porque você não está olhando para ele.

Resumo:
O robô resolveu o problema matemático perfeitamente e até "pensou" nos passos matemáticos de uma maneira que parecia que estava seguindo as regras. Mas quando testaram o que realmente causou o robô a dar a resposta, descobriram que ele estava ignorando os passos complexos e apenas reagindo diretamente ao "slot" específico para o qual foi solicitado.

O artigo nos alerta: Apenas porque podemos encontrar uma peça de informação dentro de uma rede neural, não significa que a rede está realmente usando essa informação para tomar decisões. Precisamos testar a causa, não apenas olhar para o conteúdo.

Resumo Técnico: Representado Não é Computado

Declaração do Problema
A interpretabilidade mecânica busca compreender como as redes neurais integram componentes relevantes para a tarefa na resolução de prompts estruturados. Em linguagem natural e visão, as relações internas necessárias para essa integração raramente são especificadas com precisão suficiente para definir um algoritmo interno candidato. Este artigo aborda essa lacuna utilizando aritmética, especificamente a extração de dígitos em base, como um cenário mais limpo, onde a função de entrada-saída é conhecida e algoritmos candidatos podem ser definidos explicitamente. A tarefa envolve um Transformer recebendo um número decimal $N$ , uma base $B$ e uma posição de dígito $D$ , e prevendo o coeficiente de $B^D$ na expansão em base- $B$ de $N$ . A solução de forma fechada é $y = \lfloor N/B^D \rfloor \mod B$ .

A questão central é se o modelo implementa uma hipótese algorítmica "em etapas" sugerida por essa solução de forma fechada: calcular $B^D$ , depois $N/B^D$ , aplicar o piso e, finalmente, reduzir módulo $B$ . Especificamente, os autores investigam três questões distintas frequentemente confundidas na interpretabilidade: (1) O modelo consegue resolver a tarefa? (2) As quantidades da solução de forma fechada estão representadas dentro da rede? (3) Essas quantidades são os intermediários causais usados para produzir a resposta?

Metodologia
Os autores treinaram Transformers apenas decodificadores de 10 camadas do zero na tarefa de extração de dígitos em base, utilizando três sementes aleatórias diferentes. Os dados de treinamento incluíram $N \in \{0, \dots, 999\}$ , $B \in \{2, \dots, 30\}$ e várias posições de dígito $D$ . Os modelos foram avaliados autoregressivamente em interseções de número-base retidas para garantir generalização robusta em vez de memorização.

Para analisar os mecanismos internos, o estudo empregou uma abordagem multietapa:

Sondagem Linear: Leituras lineares foram treinadas em ativações congeladas para testar se as quantidades de forma fechada ( $B^D$ , $N/B^D$ , $\lfloor N/B^D \rfloor$ e a resposta final) eram linearmente decodificáveis a partir dos fluxos residuais em várias camadas.
Ablação de Atenção: Os autores realizaram ablações direcionadas em rotas de atenção do fluxo do token $D$ ( $D_{ones}$ ) para os fluxos de saída ( $O[0]$ e $O[1]$ ). Eles mediram quedas de desempenho ao mascarar a atenção de camadas específicas (varreduras tanto de camadas rasas para profundas quanto de profundas para rasas) para identificar dependências causais.
Correção de Ativação: Para determinar que informação é carregada pelas rotas causais, os autores realizaram correção de vetores chave/valor. Eles substituíram os vetores chave/valor de $D_{ones}$ de um exemplo "doador" em um exemplo "fonte". Ao variar se o doador diferia da fonte em $N$ , $B$ ou $D$ , eles testaram se a rota carrega informação específica para a posição do dígito ou para os intermediários aritméticos mais amplos.
Busca por Circuito Esparso: Uma busca gananciosa da direita para a esquerda foi conduzida para identificar um conjunto mínimo de rotas de atenção suficientes para o desempenho da tarefa, revelando a estrutura geral de roteamento do modelo.

Principais Resultados

Competência na Tarefa: Os modelos alcançaram desempenho quase perfeito em conjuntos de teste retidos, com uma precisão média de resposta exata de 99,83% em três sementes. Isso estabelece que os modelos aprenderam confiavelmente o mapeamento da tarefa.
Representação (Sondagem): As quantidades de forma fechada foram fortemente decodificáveis linearmente a partir dos fluxos residuais. Especificamente, $B^D$ e quantidades semelhantes a quocientes ( $N/B^D$ ) eram acessíveis a partir do fluxo $D_{ones}$ , com a quantidade da resposta final decodificável a partir dos fluxos de saída. Isso tornou a hipótese algorítmica em etapas plausível do ponto de vista representacional. Notavelmente, parte dessa decodabilidade existia mesmo na inicialização, sugerindo que é parcialmente um artefato da arquitetura e da geometria dos dados, e não puramente de um cálculo aprendido.
Uso Causal (Ablação e Correção): Apesar da forte representação de intermediários em etapas, os testes causais revelaram um mecanismo diferente.
- Sensibilidade Precoce: O comportamento de saída foi mais sensível à comunicação $D_{ones} \to O$ precoce (especificamente camadas 0–1). Mascarar essas camadas iniciais causou uma queda drástica no desempenho, enquanto mascarar camadas posteriores teve efeito mínimo.
- Transferência Seletiva de Informação: Experimentos de correção mostraram que a rota $D_{ones} \to O$ carrega informação behavioramente eficaz que é altamente seletiva para $D$ . Quando o doador diferia apenas em $N$ ou $B$ , a saída do modelo corrigido permaneceu inalterada (correspondendo à fonte). Quando o doador diferia apenas em $D$ , a saída mudou para corresponder ao doador.
- Roteamento Fatorizado: A busca por circuito esparso revelou que $N$ , $B$ e $D$ são roteados através de andaimes locais majoritariamente separados que convergem tardiamente nos fluxos de saída. Não há evidência de um único intermediário unificado de forma fechada sendo transmitido do lado do prompt para a saída.

Principais Contribuições e Afirmações
A contribuição primária do artigo é uma observação dissociativa: o modelo representa as quantidades que tornam a solução algorítmica em etapas plausível (elas são linearmente decodificáveis), mas a rota causal identificada não transmite essas quantidades para a saída.

Os autores afirmam que "representado não é computado". Neste contexto, "computado" refere-se aos intermediários causais realmente usados para formar a resposta. O estudo demonstra que:

Sondas podem divergir da realidade causal: Sondas lineares identificaram com sucesso a presença de intermediários algorítmicos, mas intervenções causais (ablação e correção) provaram que esses intermediários não eram os principais impulsionadores da saída.
Decodificabilidade $\neq$ Uso Causal: Alta decodificabilidade de uma quantidade não garante que ela seja um intermediário causal aprendido; pode refletir acessibilidade fornecida pela arquitetura ou tokenização que é posteriormente esculpida pelo treinamento, mas não utilizada no caminho causal específico para a saída.
Mecanismo de Extração de Dígitos em Base: O modelo resolve a tarefa roteando $N$ , $B$ e $D$ através de caminhos separados e integrando-os tardiamente, confiando em comunicação seletiva a $D$ precoce, em vez de uma transmissão em etapas de valores semelhantes a quocientes.

Significado
O artigo serve como um aviso direto e testável contra a dependência exclusiva de sondas lineares para interpretação mecânica. Mesmo em um cenário com um algoritmo explícito e conhecido e desempenho quase perfeito na tarefa, o mecanismo causal interno pode diferir significativamente da hipótese algorítmica intuitiva. Os autores argumentam que a explicação mecânica requer demonstrar como as quantidades são usadas causalmente, e não apenas que elas estão presentes. Este trabalho complementa pesquisas existentes sobre circuitos de Transformer e mecanismos aritméticos, mostrando que rotas heurísticas ou não algorítmicas podem resolver tarefas onde intermediários algorítmicos limpos são claramente representáveis, mas não causalmente utilizados.

Represented Is Not Computed: A Causal Test of Candidate Algorithmic Intermediates in a Transformer