What Scales in Cross-Entropy Scaling Law?

Este artigo propõe que a lei de escalonamento da entropia cruzada falha em grandes escalas porque apenas seu componente "entropia de erro" segue uma lei de potência robusta, enquanto os outros componentes permanecem invariantes, estabelecendo assim a "lei de escalonamento da entropia de erro" como uma descrição mais precisa do comportamento dos modelos de linguagem.

Junxi Yan, Zixi Wei, Qingyao Ai, Yiqun Liu, Jingtao Zhan

Publicado 2026-03-03
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um robô a escrever como um humano. Para saber se ele está aprendendo, os cientistas usam uma "régua de medição" chamada Entropia Cruzada.

Por anos, a regra de ouro foi: "Quanto maior o cérebro do robô (mais dados e mais parâmetros), melhor ele fica, e essa melhoria segue uma linha reta e previsível no gráfico." Era como se, ao dobrar o tamanho do robô, a inteligência dele sempre dobrasse de forma mágica.

Mas, recentemente, os cientistas notaram algo estranho: quando os robôs ficaram gigantescos, essa regra parou de funcionar. A inteligência deles continuou melhorando, mas muito mais devagar do que o previsto. Era como se o robô tivesse atingido um "teto de vidro".

Este paper (artigo) de 2026 diz: "E se a nossa régua estiver errada? E se a gente estiver medindo a coisa errada?"

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Problema: A "Medida de Erro" vs. A "Confiança"

Os autores dizem que a "Entropia Cruzada" (a régua antiga) é como uma sopa misturada. Ela parece uma coisa só, mas na verdade é uma mistura de três ingredientes diferentes:

  1. O Erro Real (Error-Entropy): É a capacidade do robô de saber qual é a resposta certa.
    • Analogia: Imagine um jogador de futebol. O "Erro Real" é saber se ele chutou para o gol ou para fora. Se ele chuta para fora, o erro é alto. Se ele chuta para o gol, o erro é baixo.
  2. O Alinhamento (Self-Alignment): É como o robô distribui suas apostas entre as outras opções.
    • Analogia: É a estratégia do jogador. Ele sabe que o goleiro está à esquerda, então ele aposta que a bola vai para a direita? É sobre como ele organiza suas probabilidades.
  3. A Confiança (Confidence): É o quanto o robô "grita" que está certo.
    • Analogia: É o volume da voz. Um jogador pode estar certo de que vai marcar, ou pode estar inseguro. A "Confiança" mede o quanto ele aumenta o volume da sua certeza.

2. A Descoberta: O Segredo da Escala

Os pesquisadores pegaram essa "sopa" e separaram os ingredientes. O que eles descobriram foi surpreendente:

  • O ingrediente "Erro Real" (Error-Entropy) é o único que segue a regra mágica de crescimento. Quanto maior o robô, melhor ele fica em identificar a resposta certa, e isso segue uma linha reta perfeita.
  • Os outros dois ingredientes (Alinhamento e Confiança) não seguem essa regra. Eles ficam bagunçados, aleatórios ou até pioram um pouco conforme o robô cresce.

A Grande Revelação:
A "Entropia Cruzada" parecia seguir uma lei de crescimento perfeita nos robôs pequenos porque, neles, o ingrediente "Erro Real" era o que dominava a sopa (cerca de 90% da mistura). Era fácil ver a linha reta.

Mas, nos robôs gigantes, o ingrediente "Erro Real" diminui sua importância relativa. Os ingredientes "Alinhamento" e "Confiança" começam a ocupar mais espaço na sopa. Como eles não seguem a regra de crescimento, eles "sujam" a régua, fazendo parecer que o robô parou de melhorar tão rápido quanto deveria.

3. A Solução: Uma Nova Régua

O paper propõe que paremos de usar a "Entropia Cruzada" como nossa única régua e passemos a usar apenas o "Erro Real" (Error-Entropy).

  • Por que é melhor? Porque o "Erro Real" mede apenas a capacidade do robô de colocar a resposta certa no topo da lista, independentemente de quão "confiante" ou "barulhento" ele seja. É como medir se o jogador chutou para o gol, sem se importar se ele gritou "GOL!" muito alto ou baixo.

Resumo em uma frase

A inteligência dos grandes robôs continua crescendo de forma perfeita e previsível, mas a nossa régua antiga estava escondendo essa verdade porque estava misturada com "ruído" (confiança e alinhamento) que não cresce da mesma forma. Ao limpar essa régua, descobrimos que a lei de crescimento ainda é válida, apenas precisava ser medida de forma mais pura.

Isso é importante porque, se sabemos exatamente o que está crescendo (a capacidade de evitar erros), podemos treinar robôs maiores de forma mais eficiente, sem gastar energia tentando aumentar a "confiança" deles, que não ajuda tanto na inteligência real.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →