Drift and selection in LLM text ecosystems

Each language version is independently generated for its own context, not a direct translation.

Imagine que a internet é uma biblioteca gigante onde todos os livros são escritos, lidos e reescritos por uma mistura de humanos e Inteligência Artificial (IA).

Este artigo, escrito por Søren Riis, investiga o que acontece quando essa biblioteca começa a se escrever sozinha. É como se os livros de hoje fossem usados para ensinar os escritores de amanhã, que por sua vez escrevem novos livros para ensinar os de depois, num ciclo infinito.

O autor usa uma metáfora simples para explicar dois "motores" que movem essa biblioteca: a Deriva (Drift) e a Seleção.

1. A Deriva: O Efeito "Cópia Imperfeita" (O que some)

Imagine que você tem uma caixa com 1.000 canetas de cores diferentes. A maioria é azul, mas há apenas uma caneta roxa rara.

O que acontece: Se você pedir para alguém tirar uma amostra aleatória de 100 canetas dessa caixa para fazer um novo lote, é muito provável que a caneta roxa não seja escolhida. Ela simplesmente "desaparece" por acaso.
Na biblioteca de IA: Quando as IAs leem textos e geram novos baseados no que viram, elas tendem a esquecer as palavras ou frases raras. Com o tempo, o texto público fica mais "genérico". As expressões criativas, o vocabulário estranho e as nuances complexas vão sumindo, como se a biblioteca estivesse sendo polida até ficar lisa e sem textura.
O resultado: O texto torna-se "raso". Ele é fácil de prever, mas perde a profundidade e a diversidade. É como se todos os livros começassem a soar iguais.

2. A Seleção: O "Filtro de Qualidade" (O que fica)

Agora, imagine que a biblioteca não aceita qualquer texto. Existe um editor (pode ser um humano ou um sistema de verificação) que decide o que entra na prateleira.

O autor divide esse editor em dois tipos:

A. O Editor "Descritivo" (O Espelho)

Este editor apenas copia o que está popular. Se o texto mais comum é "O gato está na mesa", ele publica isso.

O problema: Ele apenas reforça o que já existe. Se a IA começou a ficar "rasa" (como explicado na Deriva), esse editor apenas acelera o processo. O texto fica cada vez mais previsível e entediante. A biblioteca perde a capacidade de aprender coisas novas porque só olha para o espelho.

B. O Editor "Normativo" (O Juiz Exigente)

Este editor é diferente. Ele não se importa apenas com o que é comum; ele busca qualidade, correção ou novidade.

Exemplo: Imagine que a IA está tentando escrever um código de computador ou provar um teorema matemático. O editor só aceita o texto se o código funcionar ou a prova estiver correta.
O resultado: Mesmo que a IA cometa erros ou tente caminhos errados, o editor descarta o que falha e mantém o que funciona. Isso força a IA a manter uma estrutura mais profunda e complexa. A biblioteca continua rica e cheia de detalhes porque o "filtro" exige que o texto seja bom, não apenas comum.

A Grande Lição: O Que Aprendemos com Isso?

O artigo mostra que o futuro da nossa "biblioteca digital" depende de como filtramos o que publicamos.

Se não filtrarmos (ou filtrarmos apenas pelo popular): A IA vai entrar num ciclo vicioso onde o texto fica cada vez mais simples, repetitivo e sem criatividade. É como se a cultura humana estivesse sendo "espremida" até sobrar apenas o óbvio.
Se filtrarmos por qualidade (normativo): Podemos manter a riqueza do conhecimento. Mesmo que as IAs gerem textos, se houver um sistema que verifique a verdade, a lógica ou a criatividade antes de publicar, a biblioteca continuará profunda e útil para aprender coisas novas.

Analogia Final: A Cozinha da Biblioteca

Pense na biblioteca como uma cozinha onde se prepara uma sopa:

A Deriva é como tirar um pouco da sopa de hoje para fazer a de amanhã. Se você não tem cuidado, os ingredientes raros (ervas finas) vão sumindo, e a sopa fica cada vez mais parecida com água.
A Seleção Descritiva é servir a sopa exatamente como ela está, sem provar. Se a sopa ficou sem sal, a próxima também ficará.
A Seleção Normativa é ter um chef que prova a sopa. Se falta sal, ele adiciona. Se está sem gosto, ele melhora. Graças a esse chef, a sopa de amanhã continua saborosa e complexa, mesmo que a receita original tenha começado a se deteriorar.

Resumo: O texto de Søren Riis nos alerta que, para que a Inteligência Artificial continue sendo útil e criativa, não podemos apenas deixar ela "conversar com ela mesma". Precisamos de filtros humanos ou inteligentes que exijam qualidade, caso contrário, corremos o risco de criar um mundo de textos vazios e repetitivos.

Each language version is independently generated for its own context, not a direct translation.

Título: Deriva e Seleção em Ecossistemas de Texto de LLM

Autor: Søren Riis (Queen Mary University of London)
Data: Março de 2026 (arXiv)

1. O Problema

O registro público de texto — a matéria-prima de onde tanto humanos quanto sistemas de IA aprendem — está cada vez mais sendo moldado por suas próprias saídas. Modelos de linguagem (LLMs) geram texto, esse texto é publicado e filtrado por humanos ou algoritmos, e posteriormente torna-se dados de treinamento para novos modelos. Este ciclo recursivo levanta questões críticas:

O uso repetido de dados sintéticos leva ao "colapso de modelo" (perda de diversidade, eliminação de caudas de distribuição)?
Como os mecanismos de filtragem (publicação, verificação, ranking) alteram a estrutura estatística do corpus público ao longo do tempo?
O que os aprendizes subsequentes herdam desse ambiente alterado?

A literatura anterior estudou esses fenômenos de forma isolada. Este trabalho propõe uma teoria unificada que separa duas forças fundamentais atuando no corpus: Deriva (Drift) e Seleção.

2. Metodologia e Framework Matemático

O autor desenvolve um framework exatamente solúvel baseado em agentes de n-gramas de ordem variável. A escolha dos n-gramas não é por serem modelos realistas de LLMs modernos (transformers), mas porque permitem uma análise matemática rigorosa onde as distribuições condicionais podem ser escritas explicitamente e os pontos fixos caracterizados com precisão.

O processo recursivo é modelado da seguinte forma:

Corpus Atual: Um conjunto de textos é usado para ajustar um modelo n-grama.
Geração: O modelo gera novos textos (sintéticos).
Publicação/Filtragem: Uma fração do corpus é substituída pelos novos textos.
- Cenário Neutro (Deriva): Os textos são publicados sem filtragem de qualidade (apenas amostragem).
- Cenário Normativo (Seleção): Os textos passam por um critério de aceitação (verificação, correção, "lookahead") antes de serem publicados.
Repetição: O novo corpus é usado para treinar a próxima geração.

O framework utiliza conceitos de genética de populações (especificamente o modelo de Wright-Fisher) para a deriva e teoria de grafos de De Bruijn para caracterizar os pontos fixos das distribuições.

3. Contribuições Principais e Resultados

O artigo apresenta três teoremas fundamentais que descrevem a dinâmica do ecossistema:

Teorema 1: Deriva Neutra e o Poliedro de Pontos Fixos

Deriva (Corpus Finito): Em um corpus finito, a reamostragem sem filtragem atua como um processo de deriva neutra. Formas raras (palavras ou frases de baixa frequência) têm alta probabilidade de desaparecerem puramente por acaso estatístico, mesmo sem nenhuma preferência contra elas. A probabilidade de extinção de uma forma rara depende apenas de sua frequência inicial, não da taxa de substituição.
Limites Infinitos (Poliedro de Circulação): No limite de corpus infinito, o conjunto de todas as distribuições n-grama que são pontos fixos (auto-consistentes) forma um poliedro convexo.
- Os pontos extremos deste poliedro correspondem a ciclos simples direcionados no grafo de De Bruijn.
- Qualquer distribuição estável é uma combinação convexa dessas distribuições determinísticas periódicas.
- Isso implica que, sem seleção, o sistema tende a estados onde a estrutura profunda é perdida em favor de ciclos determinísticos ou misturas deles.

Teorema 2: Pontos Fixos sob Seleção (Publicação Descritiva vs. Normativa)

O artigo distingue dois regimes de publicação que levam a resultados drasticamente diferentes:

Publicação Descritiva (Reprodução do Status Quo): Se os agentes publicam o texto que geram sem critérios externos de qualidade (apenas seguindo a estatística atual), o corpus converge para um estado "n-raso" (n-shallow).
- Definição de n-raso: A distribuição de blocos de tamanho $r$ (onde $r > n$ ) pode ser perfeitamente recuperada apenas olhando para a distribuição de blocos de tamanho $n$ e aplicando a lei de continuação induzida.
- Consequência: A estrutura profunda (dependências de longo prazo) é erodida. O "lookahead" (olhar para o futuro) torna-se redundante, pois o ambiente não contém mais informações que justifiquem um contexto maior.
Publicação Normativa (Filtragem por Qualidade): Se os agentes aplicam critérios de seleção (verificação de código, correção matemática, busca por novidade), o corpus pode estabilizar em um estado não-raso (n-deep).
- A seleção preserva estruturas que um modelo de ordem $n$ não consegue gerar sozinho.
- O artigo estabelece um limite superior ótimo para a divergência (KL-divergence) entre a distribuição real do corpus e a distribuição que seria gerada por um modelo de ordem $n$ : $L \log_2 s$ bits, onde $L$ é a profundidade oculta e $s$ o tamanho do vocabulário.
- A seleção normativa é "auto-sustentável": mantém a estrutura profunda que recompensa o uso de contextos maiores.

Teorema 3: Herança de Cross-Entropy

Este teorema conecta a dinâmica do corpus ao aprendizado subsequente.
Um aprendiz posterior treinado para minimizar a cross-entropy (perda padrão de LLMs) no corpus filtrado herdará a condicional pública resultante.
Se a classe de modelos do aprendiz for expressiva o suficiente, ele recuperará exatamente a distribuição condicional do ambiente filtrado.
Isso significa que a arquitetura do modelo (n-grama vs. Transformer) importa menos do que a distribuição condicional que foi "gravada" no corpus pela seleção. O que é herdado é o alvo estatístico, não o mecanismo de geração original.

4. Experimentos e Diagnósticos

O autor utiliza experimentos exatos (simulações com n-gramas em textos clássicos como Conan Doyle, Austen e Darwin, além de dados sintéticos) para validar a teoria:

Contração de Vocabulário: Em cenários neutros, o vocabulário e, mais rapidamente, os tipos de n-gramas de alta ordem desaparecem.
Diagnóstico Project-Lift: O paper introduz uma métrica para medir a "profundidade" do texto. Compara a distribuição real do corpus com a distribuição "levantada" (lift) a partir de uma janela de contexto menor.
- Em cenários descritivos, essa divergência (KL-divergence) cai para zero (o texto torna-se raso).
- Em cenários normativos, a divergência estabiliza em um valor positivo, indicando a preservação de estrutura profunda.

5. Significado e Implicações

Design de Corpora de Treinamento: O trabalho sugere que a simples acumulação de dados gerados por IA sem filtragem rigorosa levará inevitavelmente a um empobrecimento do texto (colapso para estados rasos). Para manter a riqueza linguística e estrutural, é essencial incorporar seleção normativa (verificação, correção, curadoria humana) no ciclo de feedback.
Aprendizado de Processo vs. Artefato:
- A filtragem pode ajudar no "aprendizado de artefatos" (copiar a prova final, o código que passa nos testes), removendo caminhos errados.
- No entanto, pode prejudicar o "aprendizado de processo" (debugging, exploração científica), pois remove os passos intermediários e as tentativas falhas que são cruciais para entender a lógica de busca.
Estabilidade de Ecossistemas: O framework fornece uma base teórica para prever quando um ecossistema de IA será estável e quando sofrerá degradação. A distinção entre deriva (inevitável em amostras finitas) e seleção (que pode preservar ou destruir estrutura) é crucial para a governança de dados de treinamento.
Generalização: Embora o modelo use n-gramas, a conclusão central é sobre a distribuição condicional pública. Os resultados sugerem que forças estruturais como deriva e seleção atuam em qualquer sistema de previsão de próximo token, independentemente da arquitetura subjacente (transformers, etc.).

Em resumo, o paper oferece uma teoria matemática rigorosa que explica por que a recursividade de dados sintéticos pode ser destrutiva (deriva) ou construtiva (seleção normativa), e como a curadoria de dados é o fator determinante para a sobrevivência da complexidade linguística em futuros ecossistemas de IA.