Causality $\neq$ Invariance: Function and Concept Vectors in LLMs

Each language version is independently generated for its own context, not a direct translation.

Imagine que os Grandes Modelos de Linguagem (LLMs), como o ChatGPT ou o Llama, são como cozinheiros mestres extremamente inteligentes. Eles podem aprender a fazer qualquer prato (tarefa) apenas lendo uma receita rápida (o "prompt" ou instrução) antes de começar a cozinhar. Isso se chama Aprendizado em Contexto.

Até agora, os cientistas acreditavam que esses cozinheiros tinham uma única "ficha de receita" mágica e universal para cada prato. Se você pedisse "como fazer um bolo", eles usariam a mesma ficha, não importa se você escrevesse em português, inglês, ou se a receita estivesse escrita em uma lista de múltipla escolha ou em um parágrafo solto.

Mas este novo estudo, publicado na conferência ICLR 2026, descobriu que a realidade é muito mais interessante e um pouco mais confusa. Os pesquisadores descobriram que, na verdade, esses cozinheiros têm duas fichas diferentes para o mesmo prato, e elas funcionam de maneiras opostas.

Aqui está a explicação simples, usando analogias:

1. As Duas Fichas: A "Ficha de Ação" vs. A "Ficha de Conceito"

Os pesquisadores identificaram dois tipos de "vetores" (que são como resumos digitais da tarefa) dentro do cérebro do modelo:

A. O Vetor de Função (FV) = O "Manual de Instruções Específico"

O que é: É a ficha que realmente faz o trabalho acontecer. É ela que diz ao modelo: "Agora, responda!".
O problema: Essa ficha é muito "pegajosa". Ela gruda na forma como a pergunta foi feita.
- Analogia: Imagine que você tem um manual de instruções para montar um móvel. Se o manual estiver em inglês, a ficha de ação é em inglês. Se você mudar o manual para francês ou mudar o formato para uma lista de múltipla escolha, a ficha de ação muda completamente. Ela se torna quase irreconhecível.
- Resultado: Se você tentar usar a ficha de ação de um prompt em inglês para controlar um prompt em francês, ela não funciona bem. Ela mistura a ideia do "prato" com o "idioma" e o "formato" do papel onde foi escrita.

B. O Vetor de Conceito (CV) = A "Essência do Prato"

O que é: É uma ficha que captura apenas a ideia abstrata da tarefa, ignorando se está em inglês, francês, ou se é uma pergunta de múltipla escolha.
A vantagem: Essa ficha é "invariante". Ela é como a receita do bolo em si, independente de onde ela está escrita.
- Analogia: É como o cheiro do bolo. Não importa se você leu a receita em um livro, em um site ou em um bilhete rabiscado; o cheiro (o conceito de "bolo") é o mesmo.
- O problema: Essa ficha é mais fraca. Ela sabe o que é o bolo, mas não tem a força motriz para fazer o cozinheiro assá-lo imediatamente. Ela precisa que o cozinheiro já esteja no modo de "fazer bolo" para ajudar a direcionar o resultado.

2. A Grande Descoberta: "Causalidade não é Invariância"

O título do paper diz: Causalidade ≠ Invariância.

Causalidade (O que faz acontecer): São as fichas de Ação (FV). Elas são poderosas e fazem o modelo responder corretamente, mas só funcionam bem se o formato da pergunta for exatamente igual ao formato onde você pegou a ficha.
Invariância (O que é abstrato): São as fichas de Conceito (CV). Elas entendem a ideia pura (ex: "antônimo"), mas não têm o poder de "forçar" o modelo a responder se o contexto não estiver alinhado.

A Metáfora do Orquestra:
Imagine uma orquestra.

O Vetor de Função (FV) é o maestro que bate a batuta. Ele faz a música tocar. Mas, se ele estiver acostumado a tocar jazz e você pedir para tocar uma valsa, ele pode ficar confuso se a partitura (o formato) não mudar junto com ele.
O Vetor de Conceito (CV) é o compositor que escreveu a melodia. Ele entende a música de forma pura, independente do instrumento. Mas, sozinho, ele não faz a música tocar; ele apenas "sabe" como ela deveria soar.

3. O Que Isso Significa na Prática?

Os pesquisadores fizeram experimentos para ver o que acontecia se eles tentassem "dirigir" (controlar) o modelo usando essas fichas:

No Cenário Ideal (Mesmo Formato): Se você pegar a ficha de Ação (FV) de uma pergunta em inglês e usá-la em outra pergunta em inglês, o modelo fica incrivelmente bom. Ele entende perfeitamente.
No Cenário Difícil (Formatos Diferentes): Se você pegar a ficha de Ação de uma pergunta em inglês e tentar usá-la em uma pergunta em francês ou em múltipla escolha, o modelo falha. Ele começa a responder em francês ou a seguir o formato errado.
A Solução Robusta: O Vetor de Conceito (CV) é o herói da estabilidade. Mesmo que você mude o idioma ou o formato, ele mantém o foco na ideia correta (ex: "encontrar o oposto"). Ele não é tão forte quanto o FV para mudar o comportamento do zero, mas é muito mais confiável quando as coisas mudam.

Resumo Final

Este estudo nos ensina que os modelos de IA não têm uma única "mente abstrata" perfeita. Eles têm:

Um mecanismo de execução (FV) que é forte, mas muito sensível ao formato (como um funcionário que só trabalha bem se o uniforme for o mesmo).
Um mecanismo de compreensão (CV) que é abstrato e universal, mas mais fraco (como um consultor que entende o problema, mas não tem autoridade para executar a tarefa sozinho).

A lição para o futuro: Se quisermos controlar a IA de forma precisa, precisamos saber qual "ficha" estamos usando. Se queremos que ela funcione perfeitamente em um ambiente controlado, usamos a Ficha de Ação. Se queremos que ela seja inteligente e adaptável em qualquer situação (como traduzir ou mudar de idioma), precisamos confiar na Ficha de Conceito.

Eles não são a mesma coisa, e entender essa diferença é o segredo para fazer a IA ser mais robusta e menos "vítima" de como a gente pergunta as coisas.

Each language version is independently generated for its own context, not a direct translation.

Título: Causalidade ≠ Invariância: Vetores de Função e Vetores de Conceito em LLMs

1. Problema e Motivação

O trabalho investiga uma questão fundamental na inteligência artificial e na ciência cognitiva: os Grandes Modelos de Linguagem (LLMs) representam conceitos de forma abstrata, ou seja, de maneira estável e independente da superfície do input (formato, idioma, tipo de pergunta)?

Embora a literatura anterior (especificamente o trabalho de Todd et al., 2024) tenha proposto que os Vetores de Função (Function Vectors - FVs) — vetores compactos que mediam o aprendizado em contexto (ICL) — codificam conceitos subjacentes de forma invariante, os autores desafiam essa visão. Eles questionam se as representações que causam o desempenho do modelo são as mesmas que representam a estrutura conceitual abstrata de forma invariante.

2. Metodologia

Os autores realizaram uma análise mecanicista abrangente em quatro modelos (Llama 3.1 8B/70B e Qwen 2.5 7B/72B) utilizando sete conceitos relacionais (ex: antônimos, tradução, causalidade) e três formatos de input (aberto em inglês, aberto em francês/espanhol, múltipla escolha).

A metodologia baseia-se na comparação de duas técnicas de localização de componentes neurais:

Função de Patching de Ativação (Activation Patching - AP):
- Objetivo: Identificar componentes com efeito causal direto na saída do modelo.
- Método: Substitui ativações de uma execução "corrompida" (onde a relação no prompt é quebrada) por ativações de uma execução "limpa".
- Resultado: Seleciona os Vetores de Função (FVs), compostos pela soma das ativações dos heads de atenção com maior Efeito Indireto Médio (AIE).
Análise de Similaridade Representacional (Representational Similarity Analysis - RSA):
- Objetivo: Identificar componentes que codificam conceitos de forma invariante ao formato.
- Método: Compara a matriz de similaridade das saídas dos heads de atenção com uma matriz de design binária que marca pares de prompts que compartilham o mesmo conceito, independentemente do formato.
- Resultado: Seleciona os Vetores de Conceito (Concept Vectors - CVs), compostos pela soma das ativações dos heads com maior correlação de Spearman ( $\rho$ ) entre a similaridade representacional e a identidade do conceito.
Experimentos de Direcionamento (Steering):
- Os autores injetam os vetores (FVs e CVs) na corrente residual do modelo para testar se conseguem alterar o comportamento do modelo em tarefas ambíguas (AmbiguousICL), onde dois conceitos competem no mesmo prompt.

3. Principais Contribuições e Descobertas

A. FVs não são Invariantes ao Input
Os autores demonstram que os FVs, embora eficazes para dirigir o comportamento do modelo, não são invariantes.

FVs extraídos do mesmo conceito em formatos diferentes (ex: aberto vs. múltipla escolha) são quase ortogonais entre si.
Isso indica que os FVs misturam o conceito relacional com o formato de entrada (ex: tokens de parênteses de múltipla escolha ou subpalavras de um idioma específico).

B. Descoberta dos Vetores de Conceito (CVs)
Os CVs, derivados de heads selecionados via RSA, representam conceitos em um nível de abstração superior.

Eles agrupam-se por conceito através de diferentes formatos e idiomas, ignorando a superfície do input.
Os heads que compõem os CVs são largamente distintos (quase disjuntos) dos heads que compõem os FVs, mesmo que ambos apareçam em camadas similares da rede.

C. Dissociação entre Causalidade e Invariância
O trabalho estabelece uma separação mecânica clara:

Causalidade (FVs): Os heads selecionados por AP são os principais motoras do desempenho em ICL. Eles são altamente eficazes quando o formato de extração e aplicação coincidem (in-distribution), mas falham ou introduzem artefatos quando há mudança de formato (out-of-distribution).
Invariância (CVs): Os heads selecionados por RSA codificam a estrutura abstrata do conceito, mas têm um efeito causal direto menor em tarefas padrão de ICL. Eles funcionam como "detectores" ou representações estáveis, mas não necessariamente como os "executores" imediatos da tarefa.

D. Trade-off no Direcionamento (Steering)

FVs: Produzem ganhos maiores em cenários in-distribution (formatos correspondentes), mas degradam-se rapidamente em cenários out-of-distribution (ex: extrair em francês e aplicar em inglês), muitas vezes forçando o modelo a gerar tokens do idioma ou formato de extração.
CVs: Generalizam melhor out-of-distribution, mantendo a coerência conceitual através de idiomas e tipos de perguntas, embora com ganhos absolutos de probabilidade menores. Eles evitam a contaminação por artefatos de formato (ex: não forçam a saída em francês se o prompt original foi em inglês).

4. Resultados Chave

Sobreposição de Heads: A interseção entre os top-K heads selecionados por AP (FVs) e RSA (CVs) é próxima de zero para $K \le 20$ , confirmando que são mecanismos distintos.
Matrizes de Similaridade: Enquanto as matrizes de similaridade dos FVs agrupam-se por formato (todos os prompts de múltipla escolha são similares entre si, independentemente do conceito), as matrizes dos CVs agrupam-se por conceito (todos os prompts de "antônimo" são similares, independentemente do formato).
Efeitos de Direcionamento: Ao injetar FVs extraídos de prompts de múltipla escolha, o modelo tende a gerar o token de abertura de parêntese (. Ao injetar CVs, o modelo gera o antônimo correto, independentemente do formato de extração.

5. Significado e Implicações

Este trabalho refina a compreensão teórica sobre como os LLMs realizam o Aprendizado em Contexto (ICL):

Refutação da Hipótese de Circuito Único: A ideia de que existe um único vetor de função invariante que media todo o ICL é incompleta. O modelo parece operar com múltiplos subsistemas: um para execução causal (sensível ao formato) e outro para representação abstrata (invariante).
Abstração vs. Execução: A capacidade de analogia e generalização humana pode depender de representações abstratas (CVs) que, no entanto, não são as mesmas que dirigem a geração imediata de tokens em tarefas padrão.
Aplicações Práticas:
- Para controle máximo e preciso em cenários controlados, os FVs são superiores.
- Para probing de conhecimento abstrato ou controle robusto em cenários diversos (multilinguagem, formatos variados), os CVs são mais confiáveis.
Modelos Futuros: Sugere que os vetores de função devem ser conceptualizados como condicionais ao formato ( $a(f, \phi)$ ) e que a arquitetura de ILMs pode envolver mecanismos de "detecção/encoding" (CVs) separados dos mecanismos de "execução" (FVs).

Em resumo, o artigo demonstra que causalidade não implica invariância nos LLMs: as representações que causam o comportamento do modelo são distintas das representações que codificam a estrutura conceitual abstrata de forma estável.

Causality ≠\neq= Invariance: Function and Concept Vectors in LLMs

1. As Duas Fichas: A "Ficha de Ação" vs. A "Ficha de Conceito"

A. O Vetor de Função (FV) = O "Manual de Instruções Específico"

B. O Vetor de Conceito (CV) = A "Essência do Prato"

2. A Grande Descoberta: "Causalidade não é Invariância"

3. O Que Isso Significa na Prática?

Resumo Final

Título: Causalidade ≠ Invariância: Vetores de Função e Vetores de Conceito em LLMs

1. Problema e Motivação

2. Metodologia

3. Principais Contribuições e Descobertas

4. Resultados Chave

5. Significado e Implicações

Mais como este

Diffusion Language Models Know the Answer Before Decoding

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yorùbá

Causality $\neq$ Invariance: Function and Concept Vectors in LLMs