Compute-Optimal Quantization-Aware Training

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está construindo uma casa de luxo (um modelo de Inteligência Artificial gigante) e, no final, quer transformá-la em uma casa portátil e eficiente para caber no seu bolso (um dispositivo móvel). O problema é que, para caber no bolso, você precisa reduzir o tamanho dos móveis e usar materiais mais leves (isso é a quantização).

Se você simplesmente tentar encolher os móveis da casa pronta, eles podem quebrar ou ficar tortos. A solução inteligente é construir a casa já pensando em como ela será encolhida depois. Isso é o que chamamos de Treinamento Consciente da Quantização (QAT).

Mas aqui surge um dilema: quanto tempo devo gastar construindo a casa "perfeita" (alta precisão) e quanto tempo devo gastar "ensinando" a casa a se adaptar ao encolhimento (QAT)?

Este artigo da Apple responde a essa pergunta de forma surpreendente. Aqui está a explicação simplificada:

1. O Mito dos 10%

Antigamente, os especialistas diziam: "Não se preocupe, gaste apenas 10% do tempo treinando o modelo para ser encolhido e 90% construindo a versão original". Era como se fosse uma receita fixa de bolo.

A descoberta da Apple: Essa regra de 10% está errada quando você tem recursos (tempo e dinheiro de computação) para construir casas gigantes.

A Analogia: Imagine que você está aprendendo a dirigir. Se você tem apenas 1 hora de aula, talvez seja melhor focar 90% em dirigir no asfalto liso (precisão total) e 10% em dirigir na lama (adaptação). Mas, se você tem 100 horas para treinar, você precisa passar muito mais tempo na lama para se tornar um piloto de rally perfeito.
O Resultado: Quanto mais você treina o modelo (mais "tokens" ou dados), maior deve ser a porcentagem de tempo dedicada à adaptação para a versão leve. Não é fixo; é dinâmico.

2. A "Lei da Escala" (A Receita Matemática)

Os autores criaram uma fórmula mágica (uma "Lei de Escala de Perda") que funciona como um GPS para engenheiros de IA.

O que ela faz: Ela olha para o tamanho do modelo, a quantidade de dados e o nível de compressão desejado (1-bit, 4-bit, etc.) e diz exatamente: "Para ter o melhor resultado, você deve gastar X% do tempo na versão original e Y% na versão comprimida."
Por que é útil? Sem essa fórmula, você estaria chutando. Com ela, você evita desperdício. O artigo mostra que usar a proporção errada é como jogar dinheiro fora: você pode precisar de 50% a mais de computação apenas para alcançar o mesmo resultado que teria com a proporção correta.

3. O Truque da "Fusão de Resfriamento" (A Nova Técnica)

Além de descobrir a proporção certa, eles inventaram uma nova maneira de fazer o treinamento final.

O jeito antigo: Você termina de construir a casa perfeita, diminui a velocidade do motor (resfriamento da taxa de aprendizado) para polir os detalhes, e depois começa a encolher os móveis (QAT), reiniciando o motor de novo. É como parar o carro, trocar de marcha e acelerar de novo. Desperdício de energia.
O jeito novo (Fusão): Eles sugerem começar a encolher os móveis enquanto ainda estão polindo os detalhes finais, sem parar o motor.
O benefício: Isso elimina passos desnecessários. É como se você pudesse polir a casa e encolher os móveis ao mesmo tempo, economizando tempo e energia, e ainda ficando com um resultado melhor.

4. O Equilíbrio entre Tamanho e Qualidade

O artigo também responde a uma pergunta comum: "Devo fazer um modelo enorme e pouco comprimido, ou um modelo menor e muito comprimido?"

A resposta: Depende do seu "orçamento de memória". Se você tem pouco espaço no celular, a fórmula diz qual é o tamanho ideal do modelo e qual o nível de compressão que não vai estragar a qualidade. É como escolher entre um caminhão pequeno ou um carro de luxo: a fórmula diz qual é o melhor para a sua estrada.

Resumo em uma frase

Este trabalho ensina que, para criar IAs inteligentes que cabem em celulares, não existe uma regra fixa de tempo: quanto mais você treina, mais tempo deve dedicar a preparar o modelo para ser leve, e existem novas técnicas para fazer isso de forma mais rápida e eficiente, economizando dinheiro e energia.

Em suma: A Apple descobriu como otimizar o "orçamento de treino" para que as IAs sejam tão inteligentes quanto possível, mas pequenas o suficiente para caber no seu bolso, sem desperdiçar um único segundo de computação.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Compute-Optimal Quantization-Aware Training

Autores: Aleksandr Dremov, David Grangier, Angelos Katharopoulos, Awni Hannun (Apple)
Data: Fevereiro de 2026

1. O Problema

Com o crescimento dos Grandes Modelos de Linguagem (LLMs) e a necessidade de implantá-los em dispositivos com recursos limitados, a Quantização Consciente do Treinamento (QAT - Quantization-Aware Training) tornou-se uma técnica essencial para reduzir custos de inferência sem sacrificar a precisão.

A prática atual frequentemente divide o treinamento em duas fases: uma fase de precisão total (FP) seguida por uma fase de QAT. Embora estudos anteriores (como Liu et al., 2025) tenham sugerido que uma fase de QAT curta (ex: 10% do tempo total) seja ideal, a alocação ótima de recursos computacionais entre essas duas fases permanece incerta. A questão central é: dado um orçamento computacional fixo, qual deve ser a proporção ideal entre treinamento em precisão total e treinamento QAT?

A hipótese intuitiva era que mais treinamento em FP facilitaria a QAT subsequente. No entanto, os autores investigam se essa proporção fixa se mantém válida à medida que o orçamento computacional total e o tamanho do modelo aumentam.

2. Metodologia

Os autores realizaram experimentos extensivos variando:

Tamanhos de Modelo: De 86 milhões a 2,2 bilhões de parâmetros.
Orçamentos Computacionais: De 2,3 bilhões a 1,4 trilhão de tokens (total).
Larguras de Bits de Quantização: 1, 2, 4 e 6 bits.
Datasets: Principalmente DCLM e, para validação, SlimPajama.

Abordagens Principais:

Análise de Alocação Ótima: Treinaram modelos com diferentes frações de tokens dedicados à QAT ( $D_{qat}$ ) versus FP ( $D_{fp}$ ) para encontrar a fração que minimiza a perda final (Loss).
Estatística Tokens por Byte de Parâmetro: Introduziram uma nova métrica normalizada ( $S_{total} = \frac{D_{total}}{N \cdot B / 8}$ ) para correlacionar o tamanho do modelo, a largura de bits e a quantidade de dados.
Lei de Escala de Perda (Loss Scaling Law): Derivaram uma nova fórmula matemática que modela a perda final em função de $N$ (parâmetros), $D_{fp}$ , $D_{qat}$ e $B$ (bits). Diferente de modelos anteriores (como Chinchilla ou Chen et al., 2025b), este modelo lida explicitamente com o cenário onde a QAT é iniciada a partir de um checkpoint de precisão total.
Fusão de QAT e Resfriamento (Cooldown Fusion): Propuseram uma nova técnica de agendamento de taxa de aprendizado (Learning Rate Scheduler) onde o resfriamento (decay) da taxa de aprendizado ocorre simultaneamente à fase de QAT, eliminando a necessidade de reaquecimento (re-warmup) e atualizações redundantes em FP.

3. Contribuições Chave

Descoberta de Frações Ótimas Dependentes do Compute:
Contrariando a crença anterior de que uma fração fixa (ex: 10%) é ideal, os autores demonstram que a fração ótima de QAT aumenta à medida que o orçamento computacional total cresce. Para grandes orçamentos, a fase de QAT deve ocupar uma parte significativamente maior do treinamento total.
Lei de Escala de Perda Unificada:
Desenvolveram uma lei de escala que prevê com precisão a perda final e a fração ótima de QAT para diferentes combinações de tamanho de modelo, bits e alocação de tokens. A fórmula captura a interação entre as fases FP e QAT e permite prever qual largura de bits é ótima sob restrições de memória.
Técnica de "QAT & Learning Rate Cooldown Fusion":
Propuseram iniciar a QAT diretamente a partir do estágio de taxa de aprendizado constante (antes do resfriamento final) e realizar o resfriamento durante a QAT. Isso elimina a etapa de reaquecimento da taxa de aprendizado na QAT e remove atualizações de precisão total que seriam "destruídas" pela inicialização da quantização, economizando tokens computacionais.

4. Resultados Principais

Relação Tokens/Byte e Fração QAT:
A fração ótima de QAT pode ser prevista com alta precisão usando a estatística de "tokens por byte de parâmetro". Modelos maiores e com mais tokens totais exigem uma fração de QAT maior para atingir a melhor precisão.
- Exemplo: Para modelos pequenos ou orçamentos baixos, 10-20% de QAT pode ser suficiente. Para orçamentos massivos, a fração ótima pode subir para 40-60% ou mais, dependendo dos bits.
Impacto de Alocação Subótima:
Usar uma fração de QAT subótima (ex: fixar em 10% quando o ideal é 40%) resulta em desperdício significativo de recursos. Em cenários extremos (1-bit), usar a fração ótima permite atingir a mesma perda com apenas 50% do poder computacional necessário para uma configuração subótima.
Precisão QAT vs. FP:
A lei de escala permite prever quando a QAT atinge a precisão de um modelo em FP. Modelos maiores toleram bits mais baixos (ex: 4 ou 6 bits) em orçamentos de tokens maiores, mantendo a qualidade próxima à FP.
Validação da Fusão (Fusion):
A técnica de "Fusão de Resfriamento e QAT" mostrou melhorias consistentes em perplexidade para QAT de 4 e 6 bits. Em termos de "tokens desperdiçados", essa técnica equivale a economizar entre 9% e 38% do orçamento de treinamento total, dependendo do tamanho do modelo e dos bits.
Generalização:
Os resultados foram validados em diferentes datasets (SlimPajama) e tamanhos de modelo (até 2.2B), confirmando que o fenômeno não é específico de um dataset ou hiperparâmetro.

5. Significado e Impacto

Este trabalho fornece diretrizes práticas para engenheiros de ML que desejam treinar modelos quantizados de alta qualidade de forma eficiente:

Planejamento Dinâmico: Abandona a regra de ouro fixa de 10% para QAT. Em vez disso, sugere calcular a fração ótima baseada no orçamento total de tokens e no tamanho do modelo.
Economia de Recursos: Ao aplicar a fração ótima e a técnica de fusão de resfriamento, as organizações podem treinar modelos quantizados de melhor qualidade com o mesmo orçamento, ou atingir a mesma qualidade com custos computacionais drasticamente reduzidos.
Otimização de Memória: A lei de escala ajuda a decidir a melhor largura de bits para um orçamento de memória específico, permitindo escolher entre mais parâmetros com bits mais baixos ou menos parâmetros com bits mais altos, maximizando a precisão final.

Em resumo, o artigo estabelece que a QAT não é apenas uma etapa final de ajuste, mas uma fase de treinamento que deve escalar proporcionalmente com o restante do treinamento para modelos modernos de grande escala, e oferece ferramentas matemáticas e técnicas para otimizar esse processo.

Compute-Optimal Quantization-Aware Training

1. O Mito dos 10%

2. A "Lei da Escala" (A Receita Matemática)

3. O Truque da "Fusão de Resfriamento" (A Nova Técnica)

4. O Equilíbrio entre Tamanho e Qualidade

Resumo em uma frase

Resumo Técnico: Compute-Optimal Quantization-Aware Training

1. O Problema

2. Metodologia

3. Contribuições Chave

4. Resultados Principais

5. Significado e Impacto

Mais como este

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks