Scaling with Collapse: Efficient and Predictable Training of LLM Families

Each language version is independently generated for its own context, not a direct translation.

🚀 O Segredo de Treinar Inteligentes (e Baratos)

Imagine que você é um treinador de atletas de elite. Você tem orçamentos gigantescos e quer criar o melhor time possível. O problema é que, quanto maior o time, mais difícil é prever se o treino vai dar certo ou se vai virar um desastre.

Os cientistas da Cerebras Systems descobriram uma "lei do universo" para treinar Inteligência Artificial (especificamente os Grandes Modelos de Linguagem, ou LLMs). Eles chamam isso de "Colapso".

1. O Que é esse "Colapso"? 📉

Imagine que você tem várias corridas de carros: um carro pequeno, um médio e um gigante.

O jeito antigo: Você olha o velocímetro de cada um. O carro pequeno vai a 100 km/h, o médio a 200 km/h e o gigante a 500 km/h. As curvas de velocidade são diferentes, bagunçadas e difíceis de comparar. É como tentar adivinhar quem vai ganhar a corrida olhando apenas números soltos.
O jeito novo (Colapso): A equipe descobriu que, se você "normalizar" a corrida (ajustar o tempo e a distância para que todos pareçam estar correndo na mesma pista), as curvas de velocidade de todos os carros se encaixam perfeitamente em uma única linha mágica.

Essa "linha única" é o Colapso. Significa que, se você treinar um modelo pequeno e um gigante com as regras certas, eles seguem exatamente o mesmo caminho de aprendizado, apenas em escalas diferentes.

2. A Receita Secreta: O "Tempero" Certo 🧂

Por que alguns times de futebol jogam bem e outros não? A receita importa. Para que esse "Colapso" aconteça, os autores descobriram que você precisa controlar três ingredientes principais:

A Quantidade de Comida por Jogador (TPP): Quantos dados (palavras) cada parâmetro do modelo "come". Se você der comida demais ou de menos, a curva quebra.
O Ritmo do Treino (τ - Tau): Isso é o mais importante. É como o "tempo de memória" do otimizador (o cérebro que ajusta o modelo). Se o ritmo estiver errado, o modelo esquece o que aprendeu ou aprende muito devagar.
O Cronograma de Esforço (Learning Rate): Como a intensidade do treino diminui com o tempo.

A Analogia da Cozinha:
Pense no treinamento como cozinhar um prato complexo.

Se você mudar o tamanho da panela (tamanho do modelo) mas mantiver a mesma receita (hiperparâmetros), o prato fica estranho.
Mas, se você ajustar a receita baseada no tamanho da panela (especificamente ajustando o "τ" e a "comida por parâmetro"), o prato fica perfeito, não importa se é uma panela de 1 litro ou de 50 litros. O sabor (a curva de aprendizado) é idêntico.

3. Por Que Isso é Revolucionário? 🌟

Esse "Colapso" não é apenas bonito de ver; ele resolve dois problemas chatos que as empresas de IA enfrentam:

A. O Detetive de Erros (Diagnóstico Precoce) 🔍
Imagine que você está dirigindo um carro gigante no escuro. De repente, o motor faz um barulho estranho.

Sem Colapso: Você só percebe o problema quando o carro para completamente ou quando o painel de aviso acende (muito tarde!).
Com Colapso: Como você sabe exatamente como o carro deveria se comportar (a linha mágica), se o seu carro desviar um milímetro dessa linha, você sabe imediatamente: "Algo está errado!".
- Exemplo real: Na pesquisa, eles viram um erro numérico no modelo de 1.8 Bilhões de parâmetros muito antes de qualquer um notar. Foi como ver uma rachadura no casco do navio antes de ele afundar.

B. A Bola de Cristal (Parar Cedo) 🔮
Treinar modelos gigantes custa milhões de dólares em eletricidade e tempo. Ninguém quer gastar 3 meses treinando um modelo que vai falhar.

O Truque: Como as curvas são previsíveis, você pode treinar o modelo apenas 10% ou 30% do tempo.
A Mágica: Você compara essa parte inicial com a "linha mágica" que você já conhece. Se a curva inicial se encaixa bem na previsão, você sabe que o modelo vai ficar ótimo no final. Se não se encaixa, você para o treino agora e economiza milhões. É como saber que uma planta vai florescer só olhando para a primeira folha.

4. O Resultado: A Família "Celerity" 🏎️

Os autores criaram uma nova família de modelos chamada Celerity (que significa "rapidez" em latim).

Eles usaram essa receita perfeita.
Os modelos deles são tão eficientes que, gastando menos energia e usando menos dados, eles competem de igual para igual com os gigantes do mercado (como Llama e Gemma).
Eles provaram que você não precisa ser o "mais forte" (maior modelo), mas sim o "mais inteligente" (melhor receita) para vencer.

Resumo em uma frase:

Os pesquisadores descobriram que, se você ajustar a "receita" de treinamento corretamente, todos os modelos de IA, do pequeno ao gigante, seguem o mesmo caminho de aprendizado; isso permite que eles detectem erros instantaneamente e parem de gastar dinheiro em treinamentos que não vão funcionar, muito antes do fim.

É como ter um GPS perfeito para a construção de cérebros digitais: você sabe exatamente onde está, para onde vai e se vai dar errado, antes mesmo de sair da garagem. 🗺️✨

Each language version is independently generated for its own context, not a direct translation.

Título: Escalonamento com Colapso: Treinamento Eficiente e Previsível de Famílias de LLM

Autores: Shane Bergsma, Bin Claire Zhang, Nolan Dey, Shaheer Muhammad, Gurpreet Gosal, Joel Hestness (Cerebras Systems).

1. O Problema

O treinamento de Grandes Modelos de Linguagem (LLMs) em escala de fronteira enfrenta desafios críticos de previsibilidade e eficiência:

Falta de Previsibilidade: À medida que os modelos aumentam de tamanho, é difícil prever como as curvas de perda de treinamento (TLCs - Training Loss Curves) se comportarão ou quais hiperparâmetros serão ótimos.
Dependência de Intuição: Decisões sobre quando parar o treinamento, reiniciar após picos de perda ou ajustar hiperparâmetros muitas vezes dependem de julgamento humano subjetivo, pois não há uma referência universal clara para o comportamento da curva de perda.
Ineficiência Computacional: A busca por hiperparâmetros ótimos em grande escala requer treinar modelos completos até o fim, o que é extremamente custoso em termos de FLOPs (operações de ponto flutuante).
Limitações de Trabalhos Anteriores: Estudos recentes (como Qiu et al., 2025) mostraram que curvas de perda podem "colapsar" (sobrepor-se) em uma trajetória universal após normalização, mas apenas em tarefas de pequena escala e com configurações de otimizador simplificadas (sem weight decay ou escalas complexas). Não estava claro se isso se mantinha para famílias de LLMs treinadas com receitas de escalonamento práticas (escalonando largura, profundidade, batch size e weight decay simultaneamente).

2. Metodologia e Fundamentos Teóricos

Os autores investigam as condições sob as quais as curvas de perda de treinamento de modelos de tamanhos diferentes podem ser normalizadas para colapsar em uma única curva universal.

Conceitos Chave:

Colapso (Collapse): O fenômeno onde curvas de perda normalizadas de modelos de diferentes tamanhos se alinham perfeitamente ao longo da fração de treinamento.
Parâmetros de Controle Críticos: A análise identifica três fatores que governam a forma da curva de perda e devem ser mantidos consistentes (ou escalonados corretamente) para que o colapso ocorra:
1. Razão Tokens por Parâmetro (TPP - Tokens-Per-Parameter): A quantidade de dados ( $D$ ) vista por cada parâmetro ( $N$ ).
2. Escala de Tempo do AdamW ( $\tau$ ): Um parâmetro derivado da taxa de aprendizado ( $\eta$ ), weight decay ( $\lambda$ ) e tamanho do batch ( $B$ ), definido como $\tau = B / (\eta \lambda D)$ . Este parâmetro controla o compromisso entre viés (redução inicial) e variância (teto de perda final).
3. Programação da Taxa de Aprendizado (LR Schedule): A forma como a taxa de aprendizado decai ao longo do treinamento.

Abordagem Experimental:

Modelos: Utilizaram uma família de modelos chamada Celerity (de 300M a 3.9B parâmetros), treinados com a parametrização CompleteP (uma evolução do $\mu$ P que transfere hiperparâmetros de largura e profundidade).
Configuração: Os modelos foram treinados com TPP fixo dentro de "bandas" (20, 80 e 234 TPP) e com $\tau$ otimizado especificamente para aquele TPP, seguindo leis de escalonamento empíricas recentes.
Normalização: As curvas de perda foram normalizadas dividindo-se pela perda final (ou estimada) para remover a escala absoluta, focando apenas na forma da trajetória.

3. Contribuições Principais

Identificação dos Fatores de Colapso: Demonstraram que, sob parametrização $\mu$ P/CompleteP, o colapso das curvas de perda ocorre precisamente quando o TPP e a escala de tempo $\tau$ são mantidos consistentes (ou escalonados optimalemente) entre os tamanhos dos modelos.
Celerity: Introduziram a família de modelos Celerity, a primeira família de LLMs em grande escala treinada intencionalmente em um regime de colapso. Eles escolheram um TPP de 234 para equilibrar eficiência computacional e eficiência de parâmetros, alcançando a fronteira de eficiência computacional para modelos abertos de seu tamanho.
Diagnóstico Precoce de Falhas: Mostraram que desvios do "colapso" servem como um sinalizador sensível e precoce de patologias no treinamento (ex: instabilidades numéricas, problemas de kernel). Isso permite identificar problemas muito antes de eles se tornarem visíveis na curva de perda bruta.
Parada Antecipada (Early Stopping) em HPO: Propuseram um método para prever a perda final de grandes modelos usando apenas 10-30% do treinamento. Ao alinhar curvas parciais com uma curva universal de referência (obtida em modelos menores), é possível selecionar os melhores hiperparâmetros sem treinar até o fim, economizando massivamente em custos computacionais.

4. Resultados

Colapso Observado: As curvas de perda normalizadas dos modelos Celerity (300M, 500M, 900M, 1.8B, 3.9B) colapsaram quase perfeitamente quando treinados com TPP fixo e $\tau$ ótimo (ver Figura 1 do artigo). Em contraste, famílias como o Llama-2, que variavam $\tau$ e TPP, não apresentaram colapso.
Detecção de Anomalias: Em um experimento de 1.8B parâmetros, uma instabilidade numérica foi detectada através dos resíduos de colapso (desvio da curva de referência) em cerca de 60% do treinamento. Na curva de perda bruta, o problema só se tornou evidente após 90%, permitindo uma correção muito mais rápida e evitando desperdício de recursos.
Eficiência Computacional: Os modelos Celerity atingiram a fronteira de precisão/computação (Pareto frontier) comparados a outros modelos abertos (como Gemma, OLMo, Llama). O modelo Celerity-900M, por exemplo, alcançou desempenho comparável ao BTLM-3B com 75% menos FLOPs de treinamento.
Previsão de Hiperparâmetros: Ao usar o modelo preditivo baseado no colapso, os autores conseguiram identificar o melhor batch size e weight decay em modelos grandes (até 3.3B) com apenas 10-30% do treinamento, com uma diferença de perda insignificante em relação ao melhor resultado real.

5. Significado e Impacto

Padrão para Treinamento Eficiente: O artigo estabelece que o "colapso" não é apenas uma curiosidade teórica, mas um marcador robusto de treinamento computacionalmente eficiente e estável. Se as curvas não colapsam, há algo errado na configuração de escalonamento.
Redução de Custos: A capacidade de prever o desempenho final e detectar falhas precocemente pode reduzir drasticamente o custo de pesquisa e desenvolvimento de LLMs, que atualmente consome bilhões de dólares em computação.
Guia Prático: Oferece uma receita clara para engenheiros de ML: para treinar famílias de modelos eficientes, mantenha o TPP fixo e ajuste o weight decay (e consequentemente $\tau$ ) conforme a lei de potência descoberta, em vez de usar receitas fixas de hiperparâmetros.
Transparência: A família Celerity é totalmente aberta, servindo como uma base de comparação limpa (sem annealing em dados de tarefas específicas) para avaliar o progresso real de modelos pré-treinados.

Em resumo, o trabalho transforma a observação de que "curvas de perda podem ser previsíveis" em uma ferramenta prática e operacional para desenvolver LLMs de forma mais barata, rápida e confiável.