Represented Is Not Computed: A Causal Test of Candidate Algorithmic Intermediates in a Transformer

Este artigo demonstra que, embora sondas lineares sugiram que um Transformer treinado na extração de dígitos básicos computa intermediários aritméticos em etapas, testes causais revelam que a rota computacional real depende de fluxos de entrada separados que se combinam tardiamente, destacando uma divergência significativa entre evidência representacional e mecanismo causal.

Autores originais: Ishita Darade, Sushrut Thorat

Publicado 2026-05-22✓ Author reviewed
📖 5 min de leitura🧠 Leitura aprofundada

Autores originais: Ishita Darade, Sushrut Thorat

Artigo original sob licença CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo

Imagine que você tem um chef de cozinha robótico muito inteligente, mas misterioso. Você lhe entrega um cartão de receita com três ingredientes: um número grande (NN), um número base (BB) e um número de "slot" específico (DD). A tarefa do chef é descobrir um dígito específico do número grande, mas apenas após convertê-lo para a "língua" da base.

Por exemplo, se o número grande for 255, a base for 16 e você pedir o slot 0, o chef precisa fazer alguns cálculos para lhe dizer a resposta.

Os pesquisadores deste artigo quiseram espiar dentro do cérebro do chef para ver como ele resolve esse quebra-cabeça. Eles tinham uma teoria muito específica sobre como o chef deveria estar pensando e queriam ver se isso era realmente o que estava acontecendo.

Aqui está a história do que eles descobriram, dividida em etapas simples:

1. O Chef é um Gênio na Tarefa

Primeiro, eles verificaram se o robô realmente conseguia fazer o trabalho. Eles o treinaram com milhares de exemplos e depois o testaram com números novos e nunca vistos.

  • O Resultado: O robô foi quase perfeito (99,83% de precisão). Ele sabia exatamente qual resposta dar. Portanto, sabemos que ele pode resolver o problema.

2. A Teoria do "Projeto" (O que pensávamos que estava acontecendo)

O problema matemático tem uma solução clara, passo a passo (como um projeto). Para obter a resposta, teoricamente você precisa:

  1. Calcular um número auxiliar (BDB^D).
  2. Dividir o número grande por esse auxiliar.
  3. Arredondar para baixo.
  4. Pegar o resto.

Os pesquisadores achavam que o robô provavelmente estava seguindo esse projeto. Eles usaram uma ferramenta chamada "Sonda Linear" (pense nela como um detector de metais) para escanear o cérebro do robô.

  • A Descoberta: O detector de metais apitou! Ele descobriu que o cérebro do robô de fato continha esses números exatos. O "número auxiliar" e o "número arredondado para baixo" estavam claramente visíveis nos pensamentos internos do robô.
  • A Armadilha: Como eles encontraram esses números, assumiram que o robô os estava usando para resolver o problema. Parecia que o robô estava seguindo o projeto perfeitamente.

3. A Verificação da Realidade (O Teste Causal)

É aqui que o artigo fica interessante. Apenas porque o robô tem os números em seu cérebro não significa que ele os está usando para tomar a decisão.

Para descobrir o que o robô estava realmente usando, os pesquisadores realizaram uma "cirurgia" no cérebro do robô usando dois métodos:

  • Método A: O Botão de Mudo (Ablação)
    Eles tentaram "mudar" partes específicas do cérebro que deveriam passar os "números auxiliares" para a resposta final.

    • O Resultado: Surpreendentemente, mudar as partes que continham a matemática complexa não prejudicou muito o robô. Mas quando eles mudaram a primeira parte onde o robô olhava para o "número de slot" (DD), o robô imediatamente esqueceu como responder. Não importava se a matemática complexa estava lá ou não; o robô a ignorava.
  • Método B: A Troca (Patching)
    Eles pegaram um robô "doador" que tinha um número de "slot" (DD) diferente, mas o mesmo número grande e a mesma base. Eles trocaram os sinais cerebrais do doador para o robô original.

    • O Resultado: O robô original de repente deu a resposta do doador. Mas isso só aconteceu se o número de slot (DD) fosse diferente. Se eles trocavam o número grande (NN) ou a base (BB), o robô não se importava.
    • A Conclusão: O robô não estava usando a matemática complexa (o projeto) para decidir a resposta. Ele estava apenas ouvindo o "número de slot" (DD) diretamente.

4. A Descoberta do "Caminho Oculto"

Finalmente, eles mapearam o caminho real que a informação percorreu.

  • O que eles esperavam: Uma única estrada organizada, onde NN, BB e DD se encontram, são misturados em uma fórmula matemática complexa e então produzem a resposta.
  • O que eles encontraram: O robô tem três estradas pequenas e separadas. Uma estrada carrega o número grande, uma carrega a base e uma carrega o número de slot. Essas estradas permanecem separadas durante quase toda a jornada. Elas só se encontram no último segundo, logo antes da resposta ser escrita. O robô não construiu os "números auxiliares" complexos e os passou adiante; ele apenas manteve os ingredientes separados até o final.

A Grande Lição: "Representado" não é "Computado"

O título principal do artigo diz tudo: "Representado Não é Computado."

  • Representado: O cérebro do robô conteria os números da matemática complexa. Se você olhasse para o cérebro, poderia vê-los claramente (como encontrar um mapa em uma mochila).
  • Computado: O robô não usou esses números para dirigir o carro. Ele pegou um atalho.

A Analogia:
Imagine que você está dirigindo para uma festa. Você tem um mapa detalhado, desenhado à mão, na sua caixa de luvas que mostra cada curva, semáforo e atalho (a matemática "representada").

  • A Sonda: Você olha na caixa de luvas e diz: "Aha! Você tem o mapa! Você deve estar usando o mapa para dirigir!"
  • A Realidade: Você na verdade apenas memorizou a rota e está dirigindo por instinto. Se você tirar o mapa, você ainda chega lá. Se você trocar o mapa pelo mapa de outra pessoa, você não se importa, porque você não está olhando para ele.

Resumo:
O robô resolveu o problema matemático perfeitamente e até "pensou" nos passos matemáticos de uma maneira que parecia que estava seguindo as regras. Mas quando testaram o que realmente causou o robô a dar a resposta, descobriram que ele estava ignorando os passos complexos e apenas reagindo diretamente ao "slot" específico para o qual foi solicitado.

O artigo nos alerta: Apenas porque podemos encontrar uma peça de informação dentro de uma rede neural, não significa que a rede está realmente usando essa informação para tomar decisões. Precisamos testar a causa, não apenas olhar para o conteúdo.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →