Compression Favors Consistency, Not Truth: When and Why Language Models Prefer Correct Information

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está ensinando um robô a escrever histórias ou resolver problemas de matemática. A grande pergunta que este artigo tenta responder é: Por que esse robô às vezes escolhe a verdade, mesmo quando foi treinado com muita informação errada?

A resposta do artigo é surpreendente: O robô não busca a "verdade". Ele busca o "atalho".

Vamos usar uma analogia simples para entender como isso funciona.

1. O Robô é um "Contador de Palavras" (O Princípio da Compressão)

Imagine que o robô é um estudante muito preguiçoso que precisa memorizar um livro inteiro. O objetivo dele não é entender a história, mas sim escrever o resumo mais curto possível para ganhar uma recompensa.

A Verdade (Regra Correta): Se a matemática do livro for correta (ex: $2 + 2 = 4$), existe uma regra simples e curta que explica tudo. O robô adora isso! É fácil de memorizar e ocupa pouco espaço na memória.
O Erro Aleatório (Bagunça): Imagine que, em metade dos exemplos, alguém escreveu $2 + 2 = 5 $, mas em outros exemplos escreveu$ 2 + 2 = 3 $, e em outros$ 2 + 2 = 7$. Não há padrão. Para o robô memorizar isso, ele teria que decorar cada erro individualmente. Isso é muito trabalhoso e ocupa muito espaço.
O Erro Coerente (A Mentira Organizada): Agora, imagine que o livro inteiro tem uma regra errada, mas consistente: "Sempre que você somar dois números, subtraia 1". Então, $2 + 2 = 3 $,$ 5 + 5 = 9$, etc. Isso é uma regra simples. O robô consegue memorizar essa mentira inteira com a mesma facilidade que a verdade, porque é um padrão curto e organizado.

A Conclusão Principal: O robô prefere a verdade apenas quando a mentira é "bagunçada" e difícil de explicar. Se a mentira tiver uma lógica interna (for coerente), o robô não consegue distinguir a verdade da mentira, porque ambas são igualmente "curtas" e fáceis de guardar.

2. O Experimento: Misturando Verdade e Mentira

Os pesquisadores criaram um "laboratório" com livros de matemática sintéticos para testar isso:

Cenário A (Erros Aleatórios): Eles misturaram problemas corretos com erros aleatórios. O robô aprendeu rápido a ignorar os erros aleatórios e focar na regra correta. Por que? Porque a regra correta era o único "atalho" eficiente.
- Resultado: O robô escolheu a verdade 83% das vezes, mesmo quando 50% dos dados estavam errados.
Cenário B (Erros Coerentes): Eles criaram um livro onde a regra errada era consistente (ex: "sempre subtraia 1").
- Resultado: O robô ficou confuso. Ele escolheu a verdade apenas 47% das vezes (quase como se estivesse chutando). Como a mentira era tão organizada quanto a verdade, o robô não tinha motivo para preferir uma sobre a outra.

3. A Frequência vs. A Lógica

O artigo mostra algo curioso: se você tiver 90% de mentiras coerentes e 10% de verdades, o robô vai seguir a maioria (as mentiras), porque é mais fácil memorizar o padrão que aparece mais vezes.

Mas, se as mentiras forem aleatórias (sem padrão), mesmo que haja 90% delas, o robô ainda tentará encontrar a regra correta (a verdade), porque a verdade é o único jeito de "comprimir" (resumir) o livro de forma eficiente.

4. O "Detetive" (Verificação)

O que acontece se o robô tiver que checar a resposta?
Os pesquisadores criaram exercícios onde, após calcular, o robô precisava fazer uma verificação (ex: "se eu multiplicar de volta, o número bate?").

Quando havia essa verificação, o robô conseguia perceber que a mentira coerente falhava no teste final.
Isso fez o robô voltar a preferir a verdade (subindo para 71% de acerto), mesmo com a mentira sendo organizada.
A lição: A verdade vence quando a mentira deixa "rastros" que não podem ser escondidos por uma regra simples.

5. O Que Isso Significa para o Futuro?

Este estudo nos dá um aviso importante sobre Inteligência Artificial:

IA não é um guardião da verdade: Ela é um guardião da consistência. Se uma mentira for contada de forma lógica e repetida, a IA pode aceitá-la tão facilmente quanto a verdade.
O perigo das "Teorias da Conspiração" coerentes: Se alguém cria uma teoria falsa, mas muito bem estruturada e interna consistente, a IA pode achar que é tão válida quanto a ciência real, porque ambas são "fáceis de comprimir".
A solução não é apenas treinar mais: Treinar modelos maiores não resolve magicamente esse problema se a mentira for coerente. O que funciona é verificação cruzada (fazer a IA checar os fatos de várias formas) e expor a IA a dados onde as mentiras são inconsistentes.

Resumo em uma Frase

O robô de linguagem não quer saber o que é verdadeiro; ele quer saber o que é mais fácil de explicar. A verdade só ganha quando a mentira é tão confusa que não dá para explicá-la de forma simples. Se a mentira for bem organizada, o robô não consegue vê-la como um erro.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

O artigo investiga uma questão fundamental na aprendizagem de máquinas: por que os modelos de linguagem (LLMs) às vezes preferem afirmações corretas, mesmo quando treinados em dados mistos de qualidade?

Apesar de avanços em benchmarks factuais, os LLMs frequentemente geram alucinações com confiança. Explicações existentes focam em:

Escala do modelo (modelos maiores performam melhor).
Alinhamento via RLHF (Reinforcement Learning from Human Feedback).
Estatísticas dos dados (frequência e confiabilidade da fonte).
Representações internas de verdade nos vetores de ativação.

No entanto, nenhuma dessas explicações aborda a questão mais fundamental: o objetivo de treinamento em si (previsão do próximo token) cria uma preferência inerente pela verdade? O autor propõe que a resposta reside na compressão, não na verdade metafísica.

2. Metodologia

O estudo utiliza um design experimental controlado com corpora sintéticos para isolar a variável "verdade" da variável "compressibilidade".

Modelos: Transformers estilo GPT-2 (decoder-only), implementados em MLX, com tokenização nível de caractere (vocabulário de 57 tokens) para evitar artefatos de BPE.
- Tamanhos variam de 3.5M (tiny) a 86M (large) parâmetros.
- Treinamento fixo: 5.000 passos, otimizador AdamW, taxa de aprendizado com cosine decay.
Corpora Sintéticos: Problemas matemáticos (aritmética, fatoração, equações, derivadas) gerados com soluções passo a passo.
Tipos de Erros Controlados:
1. Aleatórios (Incoerentes): Um erro plausível injetado aleatoriamente em cada problema (ex: sinal errado, coeficiente errado). Cada erro é único.
2. Coerentes (Sistemáticos): Uma regra falsa consistente aplicada a todos os problemas de um tipo (ex: $a \times b = a \times (b-1)$ ). O sistema é internamente consistente, mas matematicamente errado.
3. Contraditórios: Regras simples que quebram a estrutura algébrica (ex: $a+b = a+b+1$ ).
Métrica Principal: Avaliação em Pares (Paired Evaluation).
- Para cada problema, gera-se um prompt compartilhado e duas conclusões (uma correta, uma incorreta).
- Calcula-se a Perplexidade Negativa (NLL) apenas nos tokens de conclusão.
- Isso elimina viés de prompt e foca na preferência do modelo pela conclusão correta sob o mesmo contexto.
- Métricas secundárias: Perda no nível do corpus (DLoss) e testes estatísticos (Wilcoxon).

3. O Princípio Compressão-Consistência

O autor propõe o Princípio Compressão-Consistência:

"A descida de gradiente favorece hipóteses que geram descrições mais curtas e internamente consistentes dos dados de treinamento. O viés pela verdade não é fundamental; ele aparece apenas quando alternativas falsas são mais difíceis de comprimir do que o sistema de regras correto."

Verdade: Comprime bem porque uma única regra explica todos os dados.
Erros Aleatórios: Exigem memorização individual de cada exceção (alta complexidade de descrição). O modelo prefere a regra correta para comprimir melhor.
Erros Coerentes: Formam um sistema alternativo compacto e consistente. Como comprimem tão bem quanto a verdade, o modelo não tem preferência estrutural; a frequência dos dados domina.

4. Resultados Chave

A. Erros Aleatórios vs. Coerentes (Experimentos 1-3)

Erros Aleatórios: Há um forte viés pela verdade.
- Em proporção 50/50 (correto/incorreto), a precisão na avaliação em pares é de 83,1%.
- Mesmo em 10/90 (10% correto, 90% errado), o modelo mantém preferência pela verdade em 66,7% dos pares, apesar da inversão na perda do nível do corpus (devido à frequência).
Erros Coerentes: O viés pela verdade desaparece.
- Em 50/50, a precisão cai para 47,2% (próximo do acaso).
- O modelo prefere o sistema falso coerente sempre que ele é mais frequente, pois ambos os sistemas têm comprimentos de descrição semelhantes.
Conclusão: A "verdade" só vence quando o erro é incoerente e, portanto, incompressível.

B. O Papel das Observações e Correções (Experimentos 2 e 3)

Adicionar observações empíricas (dados que contradizem a teoria falsa) não restaura o viés pela verdade se as discrepâncias forem regulares (o modelo aprende a regra de correção como parte do sistema).
Correções ad hoc (explicações únicas para cada erro) aumentam o comprimento da descrição, mas não geram um viés transferível para pares puros de matemática.
Importância Metodológica: A avaliação no nível do corpus (DLoss) pode superestimar o viés pela verdade quando os textos corretos e incorretos têm estatísticas diferentes (comprimento, formato). A avaliação em pares é a métrica robusta necessária.

C. Escala e Erros Multi-regra (Experimentos 4 e 5)

Escala (3.5M a 86M):
- Para erros aleatórios, a preferência pela verdade aumenta com o tamanho (de 83,1% para 89,1%).
- Para erros coerentes, a precisão permanece próxima do acaso (47%–53%) em todos os tamanhos testados.
Erros Multi-regra (N regras falsas):
- Introduzir múltiplas regras falsas (N > 1) aumenta gradualmente a preferência pela verdade.
- N=1 (coerente): 46,6%.
- N=2: 77,6%.
- N=10: 88,3%.
- A transição não é um "salto" único, mas um aumento gradativo à medida que a diversidade de regras aumenta o comprimento de descrição do sistema falso.

D. Tarefas em Cadeia com Verificação (Experimento 9)

Quando uma tarefa coerente falsa é acompanhada por um passo de verificação (ex: calcular e depois verificar a subtração inversa), o erro coerente gera um resíduo numérico imprevisível.
Isso transforma o erro coerente em algo incompressível.
Resultado: A precisão salta de ~43% (sem verificação) para 70,9% (com verificação) no modelo tiny.
Tendência de Escala: Curiosamente, em treinamento fixo, a precisão das tarefas em cadeia diminui ligeiramente em modelos maiores (71% -> 60%), sugerindo que modelos maiores podem aprender o padrão coerente interno mais facilmente do que o sinal de verificação mais fraco, embora isso precise de mais confirmação.

5. Contribuições Principais

Design Experimental Controlado: Isolamento da "verdade" da "compressibilidade" usando um sistema de regras falsas coerente como hipótese nula forte.
Métrica Robusta: Estabelecimento da avaliação em pares como métrica primária para detectar viés de verdade, demonstrando que métricas de nível de corpus podem ser enganosas devido a diferenças estatísticas de texto.
Resultado Negativo Crucial: Demonstra que a pressão de compressão sozinha não garante alinhamento com a verdade. Se uma mentira for internamente consistente e compacta, o modelo a tratará como equivalente à verdade.
Limites do Viés de Verdade: O viés depende da estrutura do corpus (incoerência dos erros), não de uma propriedade intrínseca do modelo.

6. Significado e Implicações

Para o Alinhamento: O objetivo de treinamento (previsão de próximo token) não fornece uma "bússola de verdade" universal. Modelos são sistemas que buscam consistência, não verdade. Mitigar alucinações coerentes exigirá mecanismos além da simples previsão de tokens (ex: verificação externa, RLHF).
Epistemologia de ML: Sugere que representações internas de verdade podem emergir apenas quando a verdade é estruturalmente mais compressível que as alternativas falsas no corpus de treinamento.
Escalabilidade: Em cenários de passos fixos, modelos maiores tendem a ser melhores em detectar erros incoerentes, mas permanecem vulneráveis a sistemas de falsidade coerentes.
Domínios Reais: O efeito é mais forte em matemática (onde a verdade é binária e rigorosa) do que em linguagem natural (57,7% de precisão em um mundo sintético de linguagem natural), onde contradições podem ser absorvidas mais facilmente.

Conclusão

O artigo conclui que a preferência por soluções corretas em LLMs é um subproduto da incompressibilidade de erros aleatórios, e não uma busca intrínseca pela verdade. Quando o erro é coerente e compacto, o modelo perde a preferência pela verdade. Portanto, a segurança e a precisão factual em LLMs não podem depender apenas da escala ou do treinamento de próxima palavra; é necessário considerar a estrutura de coerência dos dados e incorporar mecanismos de verificação explícita.