Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions

Este artigo apresenta uma meta-análise de 92 modelos de linguagem que demonstra que incorporar decisões de design, como a composição dos dados e escolhas arquiteturais, melhora significativamente a previsão do desempenho downstream em comparação com o uso exclusivo da escala do modelo.

Emmy Liu, Amanda Bertsch, Lintang Sutawika, Lindia Tjuatja, Patrick Fernandes, Lara Marinov, Michael Chen, Shreya Singhal, Carolin Lawrence, Aditi Raghunathan, Kiril Gashteovski, Graham Neubig

Publicado 2026-03-03
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando prever o quão inteligente será um carro antes mesmo de ele sair da fábrica.

Até recentemente, a indústria de Inteligência Artificial (IA) tinha uma regra simples: "Quanto maior o motor e quanto mais combustível você colocar, mais rápido o carro vai." No mundo das IAs, isso significava que, se você aumentasse o tamanho do modelo (número de parâmetros) e a quantidade de dados que ele lia (número de tokens), ele ficaria automaticamente melhor em tudo. Isso é o que chamamos de "Leis de Escala".

Mas os autores deste paper, um grupo de pesquisadores da Carnegie Mellon e outras instituições, descobriram que essa regra não é toda a história. Eles dizem: "Não é só o tamanho do motor que importa; o tipo de combustível e o design do carro fazem toda a diferença."

Aqui está uma explicação simples do que eles descobriram, usando analogias do dia a dia:

1. O Problema: O "Gigante" vs. O "Especialista"

Imagine dois estudantes:

  • O Gigante: Um aluno que leu 1 milhão de livros, mas leu tudo de qualquer jeito, sem filtro.
  • O Especialista: Um aluno que leu apenas 100 mil livros, mas foram livros de alta qualidade, bem organizados e com um currículo específico.

A "Lei de Escala" antiga diria que o Gigante sempre ganharia. Mas os pesquisadores descobriram que, às vezes, o Especialista ganha. Por quê? Porque a qualidade e a mistura do que ele estudou importam mais do que apenas a quantidade bruta.

2. A Solução: O "Mapa de Receitas"

Os pesquisadores criaram um banco de dados gigante com 92 modelos de IA diferentes (desde os pequenos até os gigantes). Eles não olharam apenas para o tamanho, mas anotaram tudo sobre a "receita" de cada um:

  • Arquitetura: Como o cérebro foi montado (o tipo de "engrenagem" interna).
  • Dados: O que ele comeu? (Quanto era código de computador? Quanto era livros? Quanto era internet?).
  • Comportamento: O que ele escreve quando você pede para ele "falar livremente"?

Eles usaram isso para treinar um "adivinho" (um modelo de regressão) que tenta prever o quão bom um modelo será em testes de raciocínio, matemática ou programação.

3. As Descobertas Principais (O que mudou?)

A. A Mistura Perfeita de "Comida" (Dados)

A descoberta mais saborosa foi sobre código de computador.

  • A Analogia: Imagine que a IA é um cozinheiro. Se você der apenas farinha (texto comum), ele faz pão. Se você der apenas açúcar (código), ele faz doces.
  • O Resultado: Eles descobriram que a mistura ideal não é 100% de nada. Para um modelo ser bom tanto em conversar quanto em programar, a receita ideal tem cerca de 15% a 25% de código.
    • Pouco código? Ele não aprende a raciocinar logicamente.
    • Muito código (mais de 25%)? Ele começa a esquecer como conversar naturalmente e fica "robótico" em tarefas de linguagem.

B. A Internet pode ser "Lixo" (Dados Web)

  • A Analogia: Imagine que você está tentando ensinar uma criança a ser honesta. Se você deixar ela ler apenas fóruns de internet aleatórios (onde há muita mentira e desinformação), ela vai aprender a mentir.
  • O Resultado: Modelos treinados com muita "água suja" da internet (dados web) tendem a ser menos verdadeiros em testes de veracidade. Quanto mais "web" na dieta, pior a honestidade do modelo.

C. O Design do "Cérebro" (Arquitetura)

  • A Analogia: Dois carros podem ter o mesmo motor, mas um tem uma suspensão esportiva e o outro tem pneus de caminhão. O desempenho muda dependendo do terreno.
  • O Resultado: Detalhes técnicos, como o tipo de "normalização de camadas" (uma peça interna do cérebro da IA) ou como ele lembra de posições (positional embeddings), fazem diferença. Não é o fator principal, mas ajuda a refinar o desempenho.

4. Por que isso é importante?

Antes, os desenvolvedores pensavam: "Vamos apenas comprar mais computadores e ler mais dados, e a IA vai ficar mágica."

Este paper diz: "Espere! Se você mudar a receita, você pode ter uma IA menor, mais barata e mais inteligente do que um gigante mal treinado."

Eles provaram que, ao adicionar essas novas informações (tipo de dado, arquitetura) à previsão, conseguiram prever o desempenho dos modelos com 3% a 28% mais precisão do que apenas olhando para o tamanho.

Resumo em uma frase:

Não basta apenas fazer a IA maior; é preciso cuidar do que ela come e como seu cérebro é construído para que ela seja realmente inteligente.

O que isso significa para o futuro?
Os desenvolvedores podem agora usar esse "mapa de receitas" para criar modelos melhores sem precisar gastar bilhões de dólares apenas em poder de computação bruta. É como passar de "comer tudo o que vê pela frente" para "fazer uma dieta balanceada e personalizada".