Disentangling Recall and Reasoning in Transformer Models through Layer-wise Attention and Activation Analysis

Este estudo utiliza interpretabilidade mecânica e intervenções causais em modelos Transformer para demonstrar que a recordação de fatos e o raciocínio dependem de circuitos internos distintos e separáveis, embora interagentes.

Harshwardhan Fartale, Ashish Kattamuri, Rahul Raja, Arpita Vats, Ishita Prasad, Akshata Kishore Moharir

Publicado 2026-03-16
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que os modelos de Inteligência Artificial (como o ChatGPT ou o Qwen) são como grandes bibliotecas vivas. Elas têm duas habilidades principais:

  1. Recitar de cor: Lembrar fatos que já aprenderam (ex: "Qual é a capital da França?").
  2. Resolver quebra-cabeças: Usar lógica para conectar ideias e descobrir coisas novas (ex: "Se Paris é a capital da França e a França está na Europa, em que continente está Paris?").

A grande pergunta que os cientistas deste estudo queriam responder era: Será que a biblioteca usa o mesmo "cérebro" para fazer as duas coisas? Será que a parte que memoriza fatos é a mesma que faz o raciocínio lógico?

Para descobrir, os pesquisadores (Harshwardhan, Ashish e a equipe) decidiram fazer uma "cirurgia" no cérebro do modelo, olhando para dentro de cada uma de suas camadas (como se fossem andares de um prédio).

Aqui está o que eles descobriram, explicado de forma simples:

1. O Prédio tem andares com funções diferentes

Eles descobriram que o modelo não usa tudo de uma vez. É como se fosse um prédio de 28 andares:

  • Os andares de baixo (iniciais): São como o arquivo morto. Eles são especialistas em "recitar de cor". Quando você pergunta um fato, é aqui que a informação é buscada.
  • Os andares do meio: São uma zona de transição, onde as coisas se misturam um pouco.
  • Os andares de cima (finais): São como a sala de reuniões de detetives. É aqui que a mágica do raciocínio acontece. O modelo pega as informações dos andares de baixo e as conecta para resolver problemas complexos.

2. Os "Funcionários" (Neurônios) têm especializações

Dentro desses andares, existem milhares de "funcionários" (chamados de neurônios e cabeças de atenção).

  • Alguns funcionários só levantam a mão quando é hora de lembrar fatos. Eles ficam calmos quando o modelo precisa pensar.
  • Outros só levantam a mão quando é hora de raciocinar. Eles ignoram os fatos simples e focam na lógica.
  • É como se você tivesse uma equipe onde uns são especialistas em arquivar documentos e outros são especialistas em resolver crimes. Eles não fazem o trabalho um do outro.

3. O Experimento da "Desconexão" (A Prova Definitiva)

Para ter certeza de que não era apenas coincidência, os pesquisadores fizeram algo arriscado: eles "desligaram" temporariamente os andares e funcionários que pareciam responsáveis por cada tarefa.

  • Cenário A: Eles desligaram os "arquivistas" (os circuitos de memória).
    • Resultado: O modelo esqueceu os fatos (perdeu 15% de precisão), mas continuou conseguindo resolver os quebra-cabeças lógicos perfeitamente.
  • Cenário B: Eles desligaram os "detetives" (os circuitos de raciocínio).
    • Resultado: O modelo ainda sabia os fatos, mas parou de conseguir resolver os problemas de lógica.

A Analogia Final

Pense no modelo como um restaurante:

  • A Memória (Recall) é o estoque da despensa. Se você pedir "tem arroz?", o garçom vai até o estoque e traz o pacote.
  • O Raciocínio (Reasoning) é a cozinha do chef. Se você pedir "faça um risoto com esse arroz e cogumelos", o chef pega o arroz do estoque e usa a lógica e a técnica para cozinhar algo novo.

O estudo provou que, no cérebro da IA, a despensa e a cozinha são lugares físicos diferentes e usam ferramentas diferentes. Se você quebrar a despensa, o chef não consegue mais pegar os ingredientes. Se você quebrar a cozinha, o chef ainda sabe onde está o arroz, mas não consegue fazer o prato.

Por que isso é importante?

Isso é ótimo para o futuro da IA porque:

  1. Confiança: Agora sabemos que a IA não está apenas "alucinando" (inventando coisas) quando tenta raciocinar; ela está usando um caminho lógico separado da memória.
  2. Correção: Se a IA estiver mentindo sobre um fato, podemos consertar apenas a "despensa" sem estragar a capacidade de raciocínio dela.
  3. Transparência: Entendemos melhor como essas máquinas "pensam", o que nos ajuda a criar IAs mais seguras e confiáveis para a ciência e para o dia a dia.

Em resumo: Memória e Lógica são vizinhos no mesmo prédio, mas moram em andares diferentes e têm trabalhos diferentes.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →