Differential syntactic and semantic encoding in LLMs

Este artigo demonstra que as informações sintáticas e semânticas no LLM DeepSeek-V3 são parcialmente codificadas de forma linear e distribuídas diferencialmente entre as camadas, conforme evidenciado pela capacidade de desacoplar esses sinais por meio da subtração dos centróides médios das representações.

Autores originais: Santiago Acevedo, Alessandro Laio, Marco Baroni

Publicado 2026-05-28
📖 5 min de leitura🧠 Leitura aprofundada

Autores originais: Santiago Acevedo, Alessandro Laio, Marco Baroni

Artigo original sob licença CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita nem endossada pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo

Imagine um Modelo de Linguagem de Grande Escala (LLM) como DeepSeek-V3 como uma biblioteca massiva de vários andares. Dentro desta biblioteca, cada frase que você digita é transformada em uma "impressão digital" única e de alta dimensão (um vetor) à medida que se move pelos diferentes andares (camadas) do edifício.

A grande pergunta que este artigo faz é: Como a biblioteca organiza essas impressões digitais? Especificamente, ela mantém a "estrutura" da frase (sintaxe) separada do "significado" da frase (semântica), ou tudo está misturado em um grande smoothie?

Aqui está o que os pesquisadores descobriram, explicado de forma simples:

1. O Truque da "Média" (Encontrando o Núcleo)

Os pesquisadores perceberam que, se você tiver um monte de frases que parecem gramaticalmente iguais (por exemplo, "O gato sentou", "O cachorro correu", "O pássaro voou"), elas compartilham um "esqueleto" comum.

  • A Analogia: Imagine tirar uma foto de 100 pessoas diferentes usando exatamente o mesmo tipo de chapéu. Se você tirar a média de todas essas fotos, os rostos ficam borrados, mas o chapéu fica super nítido e claro.
  • O Método: Eles fizeram isso matematicamente. Pegaram frases com a mesma estrutura gramatical e fizeram a média de suas impressões digitais para criar um "Centróide Sintático" (o chapéu de gramática pura). Eles fizeram o mesmo com frases com o mesmo significado, mas palavras diferentes, para criar um "Centróide Semântico" (o chapéu de significado puro).

2. O Teste de "Subtração" (Removendo o Chapéu)

Uma vez que eles tiveram esses vetores de "gramática pura" e "significado puro", tentaram removê-los das impressões digitais originais das frases.

  • A Analogia: Imagine que você tem uma foto de uma pessoa usando um chapéu. Se você subtrair digitalmente o vetor do "chapéu" da foto, o chapéu desaparece. Se a foto ainda parecer a pessoa, você sabe que o chapéu era uma camada separada. Se o rosto da pessoa também desaparecer, o chapéu e o rosto estavam misturados.
  • O Resultado: Quando subtraíram o "Chapéu de Gramática" de uma frase, a frase perdeu a capacidade de corresponder a outras frases que tinham a mesma gramática. Quando subtraíram o "Chapéu de Significado", perdeu a capacidade de corresponder a frases que significavam a mesma coisa.
  • A Conclusão: Isso prova que o modelo codifica gramática e significado de forma linear. Eles são como ingredientes distintos em uma receita que podem ser separados matematicamente, em vez de uma reação química onde se tornam uma nova substância.

3. A Descoberta do "Planta Baixa" (Onde as coisas vivem)

A biblioteca tem muitos andares. Os pesquisadores descobriram que gramática e significado vivem em andares diferentes.

  • Gramática (Sintaxe): Isso é como a fundação e os andares inferiores. Está presente desde o início e permanece consistente até o topo. O modelo conhece a estrutura de uma frase quase imediatamente.
  • Significado (Semântica): Isso é como os andares do meio. Quando uma frase entra na biblioteca, o modelo primeiro olha para as palavras e a estrutura (andares baixos). Então, à medida que a frase se move para o meio, o modelo descobre o que ela realmente significa. Quando chega ao último andar (onde o modelo escreve sua resposta), o significado ainda está lá, mas o foco muda para gerar a saída.
  • A Analogia: Pense em ler um livro. Primeiro, você reconhece as letras e as palavras (gramática). Depois, no meio do parágrafo, você entende a história (significado). Você não precisa reconhecer as letras novamente para entender a história, mas precisa das letras para começar.

4. A Rua de Mão Única (Assimetria)

Aqui está a parte mais interessante: a separação não é perfeitamente igual.

  • A gramática é independente: Se você remover o "Significado" de uma frase, a "Gramática" permanece perfeitamente intacta. O esqueleto continua em pé mesmo se você tirar a carne.
  • O significado é dependente: Se você remover a "Gramática" de uma frase, o "Significado" fica um pouco instável. Não desaparece completamente, mas fica mais difícil de reconhecer.
  • A Analogia: Imagine uma casa. Se você remover os móveis (significado), a estrutura da casa (gramática) ainda é claramente uma casa. Mas se você remover as paredes e o telhado (gramática), os móveis (significado) são apenas uma pilha de coisas no chão; é difícil dizer o que se supunha que fossem.

Resumo

O artigo mostra que, nesses gigantes modelos de IA:

  1. Gramática e Significado são distintos: Eles são codificados separadamente, não misturados de forma irremediável.
  2. Eles são lineares: Você pode "subtrair" um do outro matematicamente.
  3. Eles vivem em lugares diferentes: A gramática está em todos os lugares (especialmente no início), enquanto o significado atinge o pico no meio do processamento do modelo.
  4. A gramática é a fundação sólida: Você pode remover o significado sem quebrar a gramática, mas remover a gramática torna mais difícil segurar o significado.

Isso sugere que, embora esses modelos sejam treinados apenas prevendo a próxima palavra, eles desenvolvem naturalmente uma estrutura que se assemelha muito à forma como os linguistas humanos pensam que a linguagem funciona: uma estrutura de suporte que sustenta uma camada de significado.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →