Imagine um Modelo de Linguagem de Grande Escala (LLM) como DeepSeek-V3 como uma biblioteca massiva de vários andares. Dentro desta biblioteca, cada frase que você digita é transformada em uma "impressão digital" única e de alta dimensão (um vetor) à medida que se move pelos diferentes andares (camadas) do edifício.

A grande pergunta que este artigo faz é: Como a biblioteca organiza essas impressões digitais? Especificamente, ela mantém a "estrutura" da frase (sintaxe) separada do "significado" da frase (semântica), ou tudo está misturado em um grande smoothie?

Aqui está o que os pesquisadores descobriram, explicado de forma simples:

1. O Truque da "Média" (Encontrando o Núcleo)

Os pesquisadores perceberam que, se você tiver um monte de frases que parecem gramaticalmente iguais (por exemplo, "O gato sentou", "O cachorro correu", "O pássaro voou"), elas compartilham um "esqueleto" comum.

A Analogia: Imagine tirar uma foto de 100 pessoas diferentes usando exatamente o mesmo tipo de chapéu. Se você tirar a média de todas essas fotos, os rostos ficam borrados, mas o chapéu fica super nítido e claro.
O Método: Eles fizeram isso matematicamente. Pegaram frases com a mesma estrutura gramatical e fizeram a média de suas impressões digitais para criar um "Centróide Sintático" (o chapéu de gramática pura). Eles fizeram o mesmo com frases com o mesmo significado, mas palavras diferentes, para criar um "Centróide Semântico" (o chapéu de significado puro).

2. O Teste de "Subtração" (Removendo o Chapéu)

Uma vez que eles tiveram esses vetores de "gramática pura" e "significado puro", tentaram removê-los das impressões digitais originais das frases.

A Analogia: Imagine que você tem uma foto de uma pessoa usando um chapéu. Se você subtrair digitalmente o vetor do "chapéu" da foto, o chapéu desaparece. Se a foto ainda parecer a pessoa, você sabe que o chapéu era uma camada separada. Se o rosto da pessoa também desaparecer, o chapéu e o rosto estavam misturados.
O Resultado: Quando subtraíram o "Chapéu de Gramática" de uma frase, a frase perdeu a capacidade de corresponder a outras frases que tinham a mesma gramática. Quando subtraíram o "Chapéu de Significado", perdeu a capacidade de corresponder a frases que significavam a mesma coisa.
A Conclusão: Isso prova que o modelo codifica gramática e significado de forma linear. Eles são como ingredientes distintos em uma receita que podem ser separados matematicamente, em vez de uma reação química onde se tornam uma nova substância.

3. A Descoberta do "Planta Baixa" (Onde as coisas vivem)

A biblioteca tem muitos andares. Os pesquisadores descobriram que gramática e significado vivem em andares diferentes.

Gramática (Sintaxe): Isso é como a fundação e os andares inferiores. Está presente desde o início e permanece consistente até o topo. O modelo conhece a estrutura de uma frase quase imediatamente.
Significado (Semântica): Isso é como os andares do meio. Quando uma frase entra na biblioteca, o modelo primeiro olha para as palavras e a estrutura (andares baixos). Então, à medida que a frase se move para o meio, o modelo descobre o que ela realmente significa. Quando chega ao último andar (onde o modelo escreve sua resposta), o significado ainda está lá, mas o foco muda para gerar a saída.
A Analogia: Pense em ler um livro. Primeiro, você reconhece as letras e as palavras (gramática). Depois, no meio do parágrafo, você entende a história (significado). Você não precisa reconhecer as letras novamente para entender a história, mas precisa das letras para começar.

4. A Rua de Mão Única (Assimetria)

Aqui está a parte mais interessante: a separação não é perfeitamente igual.

A gramática é independente: Se você remover o "Significado" de uma frase, a "Gramática" permanece perfeitamente intacta. O esqueleto continua em pé mesmo se você tirar a carne.
O significado é dependente: Se você remover a "Gramática" de uma frase, o "Significado" fica um pouco instável. Não desaparece completamente, mas fica mais difícil de reconhecer.
A Analogia: Imagine uma casa. Se você remover os móveis (significado), a estrutura da casa (gramática) ainda é claramente uma casa. Mas se você remover as paredes e o telhado (gramática), os móveis (significado) são apenas uma pilha de coisas no chão; é difícil dizer o que se supunha que fossem.

Resumo

O artigo mostra que, nesses gigantes modelos de IA:

Gramática e Significado são distintos: Eles são codificados separadamente, não misturados de forma irremediável.
Eles são lineares: Você pode "subtrair" um do outro matematicamente.
Eles vivem em lugares diferentes: A gramática está em todos os lugares (especialmente no início), enquanto o significado atinge o pico no meio do processamento do modelo.
A gramática é a fundação sólida: Você pode remover o significado sem quebrar a gramática, mas remover a gramática torna mais difícil segurar o significado.

Isso sugere que, embora esses modelos sejam treinados apenas prevendo a próxima palavra, eles desenvolvem naturalmente uma estrutura que se assemelha muito à forma como os linguistas humanos pensam que a linguagem funciona: uma estrutura de suporte que sustenta uma camada de significado.

Resumo Técnico: Codificação Sintática e Semântica Diferencial em LLMs

Declaração do Problema

Este estudo investiga como os Modelos de Linguagem de Grande Escala (LLMs) codificam informações sintáticas (estruturais) e semânticas (de significado) dentro de suas representações internas de alta dimensão. Embora o sucesso dos LLMs tenha estimulado o interesse em decifrar onde e como a competência linguística é armazenada, persiste um desacordo significativo quanto à relação entre sintaxe e semântica. As tradições generativas frequentemente postulam uma autonomia estrita da sintaxe, enquanto as abordagens funcionalistas as consideram profundamente entrelaçadas. O artigo visa resolver essa questão determinando se esses dois componentes são codificados linearmente, como são distribuídos entre as camadas da rede e até que ponto podem ser desacoplados em modelos treinados sem priores linguísticos explícitos.

Metodologia

Os autores utilizam uma abordagem geométrica baseada em operações lineares para sondar as representações do modelo DeepSeek-V3 (671 bilhões de parâmetros), com replicação qualitativa em modelos menores (Qwen2-7b, Gemma3-12b, Pythia-6.9b).

1. Construção do Conjunto de Dados

O estudo baseia-se em pares de frases correspondentes gerados usando outros LLMs (Gemini, ChatGPT, DeepSeek):

Correspondência Sintática: Pares de frases que compartilham o mesmo modelo de Classe Gramatical (POS), mas expressam significados não relacionados ("gêmeos sintáticos").
Correspondência Semântica: Pares de frases consistindo em uma frase original e sua paráfrase em inglês, bem como traduções da frase original para seis idiomas (árabe, chinês, alemão, italiano, espanhol, turco).

2. Construção de Centroides e Ablação

Para isolar tipos específicos de informação, os autores constroem "centroides" calculando a média das representações ocultas:

Centroide Sintático ( $S_i$ ): A média das representações de todos os "gêmeos sintáticos" que compartilham um modelo de POS específico. Isso média a variância semântica, mantendo a estrutura sintática.
Centroide Semântico ( $T_i$ ): A média das representações de todas as traduções de uma frase $X_i$ (excluindo a original e sua paráfrase em inglês). Isso média a variância sintática e lexical, mantendo o conteúdo semântico.

Procedimento de Ablação: Os autores removem informações específicas de um vetor de frase $X_i$ subtraindo sua projeção sobre o respectivo centroide.

Ablação sintática: $X_i \perp S_i = X_i - \frac{X_i \cdot S_i}{|S_i|^2} S_i$
Ablação semântica: $X_i \perp T_i = X_i - \frac{X_i \cdot T_i}{|T_i|^2} T_i$

3. Medição de Similaridade

Em vez de métricas lineares como o Alinhamento de Kernel Centralizado (CKA), que os autores observam fornecer sinais fracos em altas dimensões, eles empregam uma medida de similaridade baseada em ranks derivada do Desequilíbrio de Informação. Esta métrica quantifica o quão bem os vizinhos mais próximos em um espaço de representação preveem os vizinhos mais próximos em outro.

4. Agregação de Representações

Dois métodos são utilizados para agregar estados ocultos em nível de token em vetores em nível de frase:

Concatenação: Concatenar os últimos $N$ tokens (preserva informações posicionais).
Média: Calcular a média das representações dos últimos $N$ tokens (remove informações posicionais).

Principais Resultados

1. Codificação Linear de Sintaxe e Semântica

O estudo encontra que tanto a sintaxe quanto a semântica são pelo menos parcialmente codificadas de forma linear. Subtrair os centroides sintáticos ou semânticos dos vetores de frase reduz significativamente a similaridade entre pares correspondentes (gêmeos sintáticos ou paráfrases), respectivamente. Isso sugere que uma proporção significativa da informação relevante é capturada por essas direções lineares.

2. Perfis Diferenciais de Camadas

Os perfis de codificação entre camadas da sintaxe e da semântica diferem:

Sintaxe: A similaridade sintática é alta nas camadas iniciais e permanece relativamente constante ao longo da rede. É mais proeminente em representações concatenadas, sugerindo uma dependência de informações posicionais.
Semântica: A similaridade semântica é baixa nas camadas iniciais, atinge um pico nas camadas centrais e diminui ligeiramente nas camadas finais de saída. A similaridade semântica é mais forte em representações médias.

3. Desacoplamento Assimétrico

Uma descoberta crucial é a assimetria na forma como sintaxe e semântica influenciam uma à outra:

Remoção de Semântica: A ablação do centroide semântico de gêmeos sintáticos não reduz significativamente sua similaridade sintática. A sintaxe permanece robusta mesmo quando a informação semântica é removida.
Remoção de Sintaxe: A ablação do centroide sintático de paráfrases reduz significativamente sua similaridade semântica, particularmente nas camadas centrais.
Interpretação: Isso sugere que, embora a semântica possa ser parcialmente separada da sintaxe, a sintaxe é mais autônoma. Remover a estrutura sintática (por exemplo, a ordem das palavras) degrada a capacidade de recuperar o significado, enquanto remover o significado não destrói o esqueleto sintático.

4. Decomposição da Norma

A decomposição da norma quadrada dos vetores de frase revela que:

O componente sintático domina nas camadas iniciais.
O componente semântico domina nas camadas centrais.
Juntos, esses centroides representam uma fração significativa, mas não total (aproximadamente 40% nas camadas centrais) da norma do vetor, deixando um componente "residual" substancial.

5. Efeitos de Sondagem a Montante

Os métodos de ablação impactam as tarefas de sondagem a montante conforme esperado:

Classificação de POS: A ablação de centroides sintáticos reduz drasticamente a precisão; a ablação de centroides semânticos tem efeito mínimo.
Recuperação de Paráfrase: A ablação de centroides semânticos reduz drasticamente a recuperação; a ablação de centroides sintáticos tem um efeito negativo menor (embora presente).

Significado e Afirmações

O artigo afirma três contribuições primárias para os campos da interpretabilidade de LLMs e da linguística computacional:

Identificação de um Núcleo Semântico: Os resultados confirmam que um "núcleo semântico" existe no processamento de LLMs, concentrado especificamente nas camadas internas da rede, distinto do processamento sintático mais estável que abrange todas as camadas.
Evidência para Superposição Linear: O estudo fornece evidências adicionais de que a superposição linear simples é um mecanismo fundamental para codificar características linguísticas abstratas (sintaxe e significado) em redes profundas.
Autonomia Emergente da Sintaxe: A observação de uma separação imperfeita, mas clara, entre sintaxe e semântica em modelos treinados sem priores linguísticos explícitos sugere que a autonomia da sintaxe pode ser uma propriedade inerente e ótima das representações linguísticas. Esta descoberta preenche a lacuna entre teorias linguísticas generativas (sintaxe autônoma) e visões funcionalistas, implicando que essa distinção pode emergir universalmente em sistemas cognitivos, desde cérebros humanos até LLMs.

Os autores mantêm uma postura modesta, reconhecendo que sua abordagem linear captura apenas aspectos parciais dessas características complexas e que uma parte significativa da norma de representação permanece inexplicada por esses centroides. Eles sugerem que trabalhos futuros devem explorar a extração de características não lineares e as dinâmicas temporais dessas codificações.

Differential syntactic and semantic encoding in LLMs