Causality \neq Invariance: Function and Concept Vectors in LLMs

O estudo demonstra que, embora os Grandes Modelos de Linguagem (LLMs) possuam representações de conceitos abstratos e estáveis (vetores de conceito), essas são distintas dos vetores de função que impulsionam o aprendizado em contexto, sendo que os primeiros generalizam melhor entre diferentes formatos e idiomas, enquanto os segundos são mais eficazes apenas quando os formatos de extração e aplicação coincidem.

Gustaw Opiełka, Hannes Rosenbusch, Claire E. Stevenson

Publicado 2026-02-27
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que os Grandes Modelos de Linguagem (LLMs), como o ChatGPT ou o Llama, são como cozinheiros mestres extremamente inteligentes. Eles podem aprender a fazer qualquer prato (tarefa) apenas lendo uma receita rápida (o "prompt" ou instrução) antes de começar a cozinhar. Isso se chama Aprendizado em Contexto.

Até agora, os cientistas acreditavam que esses cozinheiros tinham uma única "ficha de receita" mágica e universal para cada prato. Se você pedisse "como fazer um bolo", eles usariam a mesma ficha, não importa se você escrevesse em português, inglês, ou se a receita estivesse escrita em uma lista de múltipla escolha ou em um parágrafo solto.

Mas este novo estudo, publicado na conferência ICLR 2026, descobriu que a realidade é muito mais interessante e um pouco mais confusa. Os pesquisadores descobriram que, na verdade, esses cozinheiros têm duas fichas diferentes para o mesmo prato, e elas funcionam de maneiras opostas.

Aqui está a explicação simples, usando analogias:

1. As Duas Fichas: A "Ficha de Ação" vs. A "Ficha de Conceito"

Os pesquisadores identificaram dois tipos de "vetores" (que são como resumos digitais da tarefa) dentro do cérebro do modelo:

A. O Vetor de Função (FV) = O "Manual de Instruções Específico"

  • O que é: É a ficha que realmente faz o trabalho acontecer. É ela que diz ao modelo: "Agora, responda!".
  • O problema: Essa ficha é muito "pegajosa". Ela gruda na forma como a pergunta foi feita.
    • Analogia: Imagine que você tem um manual de instruções para montar um móvel. Se o manual estiver em inglês, a ficha de ação é em inglês. Se você mudar o manual para francês ou mudar o formato para uma lista de múltipla escolha, a ficha de ação muda completamente. Ela se torna quase irreconhecível.
    • Resultado: Se você tentar usar a ficha de ação de um prompt em inglês para controlar um prompt em francês, ela não funciona bem. Ela mistura a ideia do "prato" com o "idioma" e o "formato" do papel onde foi escrita.

B. O Vetor de Conceito (CV) = A "Essência do Prato"

  • O que é: É uma ficha que captura apenas a ideia abstrata da tarefa, ignorando se está em inglês, francês, ou se é uma pergunta de múltipla escolha.
  • A vantagem: Essa ficha é "invariante". Ela é como a receita do bolo em si, independente de onde ela está escrita.
    • Analogia: É como o cheiro do bolo. Não importa se você leu a receita em um livro, em um site ou em um bilhete rabiscado; o cheiro (o conceito de "bolo") é o mesmo.
    • O problema: Essa ficha é mais fraca. Ela sabe o que é o bolo, mas não tem a força motriz para fazer o cozinheiro assá-lo imediatamente. Ela precisa que o cozinheiro já esteja no modo de "fazer bolo" para ajudar a direcionar o resultado.

2. A Grande Descoberta: "Causalidade não é Invariância"

O título do paper diz: Causalidade ≠ Invariância.

  • Causalidade (O que faz acontecer): São as fichas de Ação (FV). Elas são poderosas e fazem o modelo responder corretamente, mas só funcionam bem se o formato da pergunta for exatamente igual ao formato onde você pegou a ficha.
  • Invariância (O que é abstrato): São as fichas de Conceito (CV). Elas entendem a ideia pura (ex: "antônimo"), mas não têm o poder de "forçar" o modelo a responder se o contexto não estiver alinhado.

A Metáfora do Orquestra:
Imagine uma orquestra.

  • O Vetor de Função (FV) é o maestro que bate a batuta. Ele faz a música tocar. Mas, se ele estiver acostumado a tocar jazz e você pedir para tocar uma valsa, ele pode ficar confuso se a partitura (o formato) não mudar junto com ele.
  • O Vetor de Conceito (CV) é o compositor que escreveu a melodia. Ele entende a música de forma pura, independente do instrumento. Mas, sozinho, ele não faz a música tocar; ele apenas "sabe" como ela deveria soar.

3. O Que Isso Significa na Prática?

Os pesquisadores fizeram experimentos para ver o que acontecia se eles tentassem "dirigir" (controlar) o modelo usando essas fichas:

  1. No Cenário Ideal (Mesmo Formato): Se você pegar a ficha de Ação (FV) de uma pergunta em inglês e usá-la em outra pergunta em inglês, o modelo fica incrivelmente bom. Ele entende perfeitamente.
  2. No Cenário Difícil (Formatos Diferentes): Se você pegar a ficha de Ação de uma pergunta em inglês e tentar usá-la em uma pergunta em francês ou em múltipla escolha, o modelo falha. Ele começa a responder em francês ou a seguir o formato errado.
  3. A Solução Robusta: O Vetor de Conceito (CV) é o herói da estabilidade. Mesmo que você mude o idioma ou o formato, ele mantém o foco na ideia correta (ex: "encontrar o oposto"). Ele não é tão forte quanto o FV para mudar o comportamento do zero, mas é muito mais confiável quando as coisas mudam.

Resumo Final

Este estudo nos ensina que os modelos de IA não têm uma única "mente abstrata" perfeita. Eles têm:

  1. Um mecanismo de execução (FV) que é forte, mas muito sensível ao formato (como um funcionário que só trabalha bem se o uniforme for o mesmo).
  2. Um mecanismo de compreensão (CV) que é abstrato e universal, mas mais fraco (como um consultor que entende o problema, mas não tem autoridade para executar a tarefa sozinho).

A lição para o futuro: Se quisermos controlar a IA de forma precisa, precisamos saber qual "ficha" estamos usando. Se queremos que ela funcione perfeitamente em um ambiente controlado, usamos a Ficha de Ação. Se queremos que ela seja inteligente e adaptável em qualquer situação (como traduzir ou mudar de idioma), precisamos confiar na Ficha de Conceito.

Eles não são a mesma coisa, e entender essa diferença é o segredo para fazer a IA ser mais robusta e menos "vítima" de como a gente pergunta as coisas.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →