I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data?

Each language version is independently generated for its own context, not a direct translation.

Imagine que os Grandes Modelos de Linguagem (como o ChatGPT ou o Llama) são como chefes de cozinha extremamente talentosos, mas que nunca explicam como pensam. Eles podem escrever poemas, traduzir textos e responder perguntas complexas, mas se você perguntar: "Como você sabe que 'amor' é diferente de 'ódio'?", eles apenas dizem: "Eu apenas previro a próxima palavra".

Este artigo, escrito por pesquisadores da Austrália e dos EUA, faz uma pergunta ousada: "Se o modelo só está tentando adivinhar a próxima palavra, será que ele acaba aprendendo os conceitos humanos por acaso?"

A resposta deles é um "Sim, e aqui está a matemática que prova isso". Vamos descomplicar a ciência por trás disso usando algumas analogias do dia a dia.

1. O Jogo do "Complete a Frase" (A Previsão da Próxima Palavra)

Pense em um modelo de linguagem como alguém jogando um jogo de "Complete a Frase".

O Jogo: Você diz "O céu é...", e o modelo tenta adivinhar a próxima palavra (provavelmente "azul").
A Suposição Comum: Acreditávamos que, para fazer isso, o modelo apenas memorizava padrões de palavras.
A Descoberta: Os autores mostram que, para ser bom nesse jogo, o modelo é forçado a entender os conceitos por trás das palavras. Ele precisa saber que "azul" está ligado ao conceito de "céu", "frio" ou "tristeza", e não apenas que a palavra "azul" costuma aparecer depois de "céu".

2. A "Caixa Preta" vs. O "Mapa do Tesouro" (Variáveis Latentes)

Imagine que o mundo real é um mapa do tesouro cheio de conceitos (sentimentos, fatos, estilos de escrita).

O Problema: O texto que vemos (o que o modelo lê) é como uma foto borrada desse mapa. Muitas coisas diferentes podem gerar a mesma foto.
A Teoria Antiga: Muitos cientistas achavam que era impossível recuperar o mapa original (os conceitos) a partir da foto borrada, a menos que a foto fosse perfeita e sem distorções.
A Inovação deste Papel: Os autores dizem: "E se a foto não for perfeita? E se várias coisas diferentes gerarem a mesma palavra?"
- Eles criaram um modelo matemático que aceita essa "imperfeição".
- A Grande Revelação: Mesmo com a foto borrada, eles provaram matematicamente que o "cérebro" do modelo (suas representações internas) organiza esses conceitos de uma forma linear.

3. A Analogia da "Sopa de Letras" (Linearidade)

Imagine que o modelo tem uma sopa de letras flutuando na sua mente.

A Hipótese Linear: Os autores dizem que, se você pegar duas palavras que diferem apenas em um conceito (ex: "Rei" vs. "Rainha", onde só muda o gênero), a diferença entre elas na "sopa" do modelo é uma linha reta que aponta exatamente para o conceito de "gênero".
O Que Isso Significa: É como se o modelo tivesse um "botão de controle" invisível para cada ideia humana. Se você empurrar o vetor (a seta) de "Rei" na direção do "botão de gênero", você chega em "Rainha".
A Prova: Eles mostraram que essa "linha reta" não é um acidente. É uma consequência matemática inevitável de como o modelo aprende a prever a próxima palavra. O modelo precisa organizar o conhecimento assim para ser eficiente.

4. O "Detetive de Conceitos" (Autoencoders Esparsos)

Agora, imagine que queremos ver o que está acontecendo dentro da "sopa" do modelo. Usamos uma ferramenta chamada Autoencoder Esparsos (SAE). É como um filtro que tenta separar a sopa em ingredientes puros (ex: separar o "tom de voz" do "significado").

O Problema: Como sabemos se o filtro está funcionando? Antes, era difícil saber se o filtro estava realmente isolando o conceito "humor" ou apenas bagunçando as palavras.
A Solução do Artigo: Como provamos que o modelo organiza os conceitos em linhas retas, podemos usar isso como uma régua!
- Se o filtro (SAE) estiver funcionando bem, ele deve conseguir alinhar perfeitamente com essas "linhas retas" que o modelo já aprendeu.
- Eles criaram um novo teste: pegam pares de frases que só mudam um conceito (ex: "Eu sou feliz" vs. "Eu sou triste") e veem se o filtro consegue separar isso.
O Resultado: Eles testaram um novo tipo de filtro (chamado "SAE Estruturado") que entende que alguns conceitos estão ligados (como "cor" e "tamanho" às vezes andam juntos). Esse novo filtro funcionou melhor, provando que a teoria deles ajuda a construir modelos mais inteligentes e interpretáveis.

Resumo em Uma Frase

O papel prova que, ao tentar apenas prever a próxima palavra em um texto, os modelos de IA são forçados matematicamente a construir um mapa interno dos conceitos humanos, organizando-os de forma simples e linear. Isso nos dá uma "chave" para abrir a caixa preta e entender como a IA pensa, além de nos dar uma ferramenta melhor para testar se ela está realmente entendendo o que diz.

Em suma: A IA não precisa ser "ensinada" a entender conceitos humanos; o simples ato de tentar completar frases a obriga a descobri-los sozinha, e agora sabemos exatamente como olhar para dentro dela para ver esses conceitos.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico

1. Problema e Motivação

Embora existam evidências empíricas robustas de que as representações internas de Grandes Modelos de Linguagem (LLMs) codifiquem conceitos interpretáveis por humanos (como sentimentos, estilo de escrita ou fatos), os mecanismos teóricos pelos quais essas representações emergem a partir do treinamento puramente baseado em previsão do próximo token (next-token prediction) permanecem pouco explorados.
A questão central é: o objetivo de treinamento de prever a próxima palavra é suficiente para garantir que o modelo aprenda uma representação linear e identificável das variáveis latentes (conceitos) que geraram o texto? Trabalhos anteriores tentaram modelar isso, mas frequentemente assumiam variáveis contínuas (o que não reflete a natureza discreta da linguagem) ou exigiam que o mapeamento das variáveis latentes para os dados observados fosse invertível (uma suposição irrealista para dados textuais complexos).

2. Metodologia e Modelo Proposto

Os autores introduzem um novo modelo de variável latente para a geração de dados textuais, fundamentado em três pilares principais:

Modelagem Discreta: Diferente de trabalhos anteriores que usam variáveis contínuas, este modelo assume que tanto as variáveis latentes (conceitos $c$ ) quanto as variáveis observadas (tokens de entrada $x$ e saída $y$ ) são discretas. Isso alinha-se melhor com a estrutura intrínseca da linguagem natural.
Relaxamento da Invertibilidade: O modelo não exige que o mapeamento das variáveis latentes para os dados observados seja invertível. Reconhece-se que a relação é muitas vezes "muitos-para-um" (diferentes combinações de conceitos podem gerar o mesmo token) e que alguns conceitos podem não ser explicitamente manifestos no texto superficial.
Condições de Identificabilidade Aproximada: Sob condições moderadas (Condição de Diversidade, Condição de Variação Total e Condição de Cobertura), os autores estabelecem um resultado de identificabilidade aproximada.

O Resultado Teórico Principal (Teorema 3.1):
O artigo prova que, sob essas condições, as representações aprendidas pelo LLM ( $f_x(x)$ ) através da previsão do próximo token são aproximadamente uma transformação linear do logaritmo das probabilidades posteriores das variáveis latentes dadas o contexto de entrada.
A relação é expressa como:
$f_x(x) \approx A [\log p(c = c_i | x)]_i + b$
Onde:

$f_x(x)$ é a representação do modelo.
$p(c|x)$ é a distribuição posterior dos conceitos latentes dado o contexto.
$A$ é uma matriz de transformação linear.
$b$ é um termo constante.
O erro de aproximação tende a zero à medida que o mapeamento se torna mais invertível ( $\epsilon \to 0$ ).

3. Contribuições Principais

Fundamentação Teórica da Hipótese de Representação Linear: O trabalho oferece uma perspectiva unificada e principial para entender por que conceitos em LLMs são representados linearmente. Ele conecta diretamente a hipótese de representação linear (observada empiricamente) à teoria de identificabilidade de variáveis latentes, mostrando que a linearidade emerge naturalmente da estrutura do problema de previsão do próximo token quando os conceitos são discretos.
Unificação de Fenômenos Empíricos: O resultado teórico unifica fenômenos observados anteriormente, como:
- Conceitos como Direções: A diferença entre representações de pares de palavras (ex: "homem" - "mulher") corresponde a uma direção específica no espaço latente.
- Manipulabilidade de Conceitos: A adição de vetores de direção (steering vectors) altera o comportamento do modelo de forma previsível, pois equivale a modificar a distribuição posterior do conceito de interesse.
- Probing Linear: A capacidade de classificar conceitos com classificadores lineares é uma consequência direta da estrutura linear das representações.
Novo Método de Avaliação para Autoencoders Esparsos (SAEs): Os autores propõem uma estratégia de avaliação teoricamente fundamentada para SAEs. Como as representações do LLM são lineares em relação aos log-probabilidades dos conceitos, é possível avaliar se as características aprendidas por um SAE ( $z$ ) correspondem a conceitos monossêmicos medindo a correlação linear entre as características do SAE e as probabilidades posteriores estimadas dos conceitos (via linear probing supervisionado em pares contrafactuais).
SAEs Estruturados: Motivados pela interdependência entre conceitos latentes no modelo proposto, os autores introduzem SAEs Estruturados. Estes incorporam regularização de baixo posto (low-rank) além da esparsidade tradicional, permitindo que o modelo capture dependências estruturadas entre conceitos, melhorando a performance na extração de características.

4. Resultados Empíricos

Os autores validaram suas teorias através de experimentos em dados simulados e em famílias de modelos reais (Pythia, Llama e DeepSeek-R1):

Dados Simulados: Experimentos com dados sintéticos gerados a partir de grafos acíclicos direcionados (DAGs) confirmaram que a precisão da classificação linear aumenta conforme o mapeamento das variáveis latentes para os observados se torna mais invertível, validando o Teorema 3.1.
Validação em LLMs Reais:
- Utilizando 27 pares contrafactuais (diferindo apenas em um conceito binário), os autores demonstraram que o produto entre a matriz de diferenças de representação ( $A_s$ ) e a matriz de pesos do classificador linear ( $W_s$ ) aproxima-se da matriz identidade. Isso confirma empiricamente a Corolário 4.3, validando a estrutura linear unificada.
- Resultados consistentes foram encontrados em modelos LLaMA-2, LLaMA-3, Pythia e DeepSeek-R1.
Avaliação de SAEs:
- O novo método de avaliação (correlação de Pearson entre características do SAE e log-probabilidades dos conceitos) mostrou-se sensível e capaz de diferenciar variantes de SAEs.
- O SAE Estruturado proposto superou consistentemente os SAEs tradicionais (top-k, batch-top-k, p-annealing) tanto na métrica de reconstrução (MSE) quanto na métrica de alinhamento com conceitos humanos (PCC), demonstrando que a regularização estruturada ajuda a desentrelaçar conceitos interdependentes.

5. Significado e Impacto

Este trabalho representa um avanço significativo na interpretabilidade de LLMs ao:

Fornecer uma base teórica rigorosa para a observação empírica de que "LLMs aprendem conceitos humanos através da previsão do próximo token".
Desafiar suposições anteriores sobre a necessidade de invertibilidade estrita ou variáveis contínuas na análise de representações.
Oferecer ferramentas práticas para a comunidade, especificamente um método de avaliação mais robusto para Autoencoders Esparsos e uma arquitetura melhorada (SAE Estruturado) que alinha melhor as representações internas com conceitos humanos.
Sugerir uma direção futura para a "desmistificação linear" (linear unmixing) das representações de LLMs, permitindo a extração direta de probabilidades de conceitos de alto nível e potencialmente habilitando raciocínio causal dentro dos modelos.

Em suma, o artigo demonstra que a simples tarefa de prever a próxima palavra é suficiente para que os LLMs aprendam uma estrutura latente linear e identificável que espelha a forma como os humanos abstraem e categorizam o mundo, desde que os conceitos sejam modelados corretamente como variáveis discretas.

I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data?

1. O Jogo do "Complete a Frase" (A Previsão da Próxima Palavra)

2. A "Caixa Preta" vs. O "Mapa do Tesouro" (Variáveis Latentes)

3. A Analogia da "Sopa de Letras" (Linearidade)

4. O "Detetive de Conceitos" (Autoencoders Esparsos)

Resumo em Uma Frase

Resumo Técnico

1. Problema e Motivação

2. Metodologia e Modelo Proposto

3. Contribuições Principais

4. Resultados Empíricos

5. Significado e Impacto

Mais como este

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics