Quantization-Aware Distillation for NVFP4 Inference Accuracy Recovery

Meng Xin, Sweta Priyadarshi, Jingyu Xin, Bilal Kartal, Aditya Vavre, Asma Kuriparambil Thekkumpate, Zijia Chen, Ameya Sunil Mahabaleshwarkar, Ido Shahaf, Akhiad Bercovich, Kinjal Patel, Suguna Varshini Velury, Chenjie Luo, Zhiyu Cheng, Jenny Chen, Chen-Han Yu, Wei Ping, Oleg Rybakov, Nima Tajbakhsh, Oluwatobi Olabiyi, Dusan Stosic, Di Wu, Song Han, Eric Chung, Sharath Turuvekere Sreenivas, Bryan Catanzaro, Yoshi Suhara, Tijmen Blankevoort, Huizi Mao

Publicado 2026-03-04

📖 5 min de leitura🧠 Leitura aprofundada

Ver no arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um chef de cozinha genial (o modelo de Inteligência Artificial original) que cozinhou pratos incríveis usando ingredientes de luxo e equipamentos de alta precisão. Esse chef trabalha com "ingredientes de alta fidelidade" (BF16), o que garante que cada prato saia perfeito.

Agora, imagine que você quer levar esse chef para um festival de rua (dispositivos mais baratos, como celulares ou servidores menores). No festival, não há espaço para os ingredientes caros nem para os equipamentos gigantes. Você é obrigado a usar ingredientes mais simples e equipamentos menores (o formato NVFP4, que é como "comida de rua" de alta qualidade, mas mais compacta).

O problema? Quando você tenta cozinhar com esses ingredientes simples, o prato perde um pouco do sabor. Ele ainda é comestível, mas não é mais gourmet.

É aqui que entra o QAD (Destilação Consciente de Quantização), a solução apresentada neste relatório técnico da NVIDIA. Vamos entender como funciona com uma analogia simples:

1. O Problema: A "Falta de Sabor"

Quando você tenta cozinhar diretamente com os ingredientes simples (um método antigo chamado PTQ - Quantização Pós-Treinamento), o prato fica um pouco "sem graça". Em modelos pequenos ou muito complexos, essa perda de qualidade é grande demais.

2. A Solução Antiga: Tentar Reaprender (QAT)

Uma ideia seria tentar ensinar o chef a cozinhar de novo, mas usando apenas os ingredientes simples. Isso é chamado de QAT (Treinamento Consciente de Quantização).

O problema: É como tentar ensinar o chef a cozinhar de novo, mas você não tem o livro de receitas original, nem os ingredientes originais, e o chef já passou por várias fases de treinamento (aprendeu a cozinhar, depois a cozinhar com temperos especiais, depois a cozinhar com técnicas de "reforço"). Tentar recriar todo esse processo do zero é um pesadelo logístico e pode fazer o chef esquecer o que ele já sabia.

3. A Solução Mágica: O "Espelho" (QAD)

A equipe da NVIDIA descobriu um truque melhor: A Destilação.

Em vez de tentar reensinar o chef a cozinhar do zero, você coloca o chef genial (o modelo original de alta precisão) ao lado do chef do festival (o modelo quantizado).

Como funciona: O chef do festival não olha para o prato final e tenta adivinhar o que fazer. Em vez disso, ele observa o chef genial e tenta imitar exatamente como o genial pensa e reage a cada ingrediente.
A analogia do "Espelho": Imagine que o chef genial é um espelho. O chef do festival olha para o espelho e tenta copiar cada movimento, cada expressão e cada decisão do espelho. Ele não precisa saber por que o prato é bom, ele só precisa saber como o chef genial faria.

Por que isso é incrível? (Os 3 Superpoderes do QAD)

Funciona mesmo em cozinhas complexas (RL e SFT):
Muitos chefs modernos passaram por treinamentos muito estranhos e complexos (como aprender a raciocinar sozinho ou aprender com feedback de um juiz). Tentar recriar esse treinamento é impossível. Mas com o QAD, você só precisa do chef final. Ele olha para o espelho e aprende a imitar o resultado final, pulando toda a complexidade do passado.
Não precisa de todos os ingredientes (Robustez aos Dados):
O método é tão inteligente que você não precisa ter todos os ingredientes originais.
- Exemplo: Se o chef é especialista em "Massas" e "Sobremesas", e você só tem ingredientes para "Massas", o QAD ainda consegue ensinar o chef a fazer "Sobremesas" incríveis! Como? Porque o chef genial (o espelho) já sabe como fazer sobremesas, e o chef do festival aprende a pensar como ele, mesmo sem os ingredientes específicos na mão. É como aprender a tocar piano ouvindo um mestre, mesmo que você só tenha um teclado simples.
Funciona até com "ingredientes aleatórios":
O teste mais louco foi: eles tentaram ensinar o chef do festival usando apenas dados aleatórios (como jogar farinha no ar). Surpreendentemente, o método ainda funcionou! Isso mostra que o segredo não está no que você come, mas em quem você está copiando. Se você copiar o mestre, você aprende a essência, mesmo com dados ruins.

Resumo da Ópera

O relatório diz: "Não tente recriar o treinamento original difícil e caro. Em vez disso, use o modelo inteligente original como um professor e faça o modelo pequeno e rápido (NVFP4) agir como um aluno que apenas tenta imitar as respostas do professor."

Resultado:

O modelo pequeno fica quase tão bom quanto o gigante original (recuperando a "precisão BF16").
É mais rápido e barato de fazer.
Funciona para modelos de texto, visão e raciocínio complexo.

Em suma, o QAD é como dar um GPS de alta precisão (o modelo original) para um carro pequeno (o modelo quantizado). O carro pequeno não precisa saber construir a estrada; ele só precisa seguir as instruções do GPS para chegar ao destino com a mesma perfeição do carro de luxo.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Destilação Consciente de Quantização (QAD) para NVFP4

1. O Problema

A expansão rápida dos Grandes Modelos de Linguagem (LLMs) e Modelos de Linguagem e Visão (VLMs) exige formatos numéricos mais eficientes para reduzir custos computacionais, uso de memória e consumo de energia. O formato de ponto flutuante de 4 bits da NVIDIA (NVFP4) surge como uma solução promissora, oferecendo um aumento de 2 a 3 vezes no desempenho aritmético e redução de 50% no uso de memória em comparação ao FP8.

No entanto, a Quantização Pós-Treinamento (PTQ) simples, embora eficaz para modelos muito grandes, frequentemente resulta em quedas de precisão não negligenciáveis em modelos menores ou em tarefas sensíveis.

A alternativa tradicional, o Treinamento Consciente de Quantização (QAT), enfrenta desafios significativos no cenário moderno de LLMs:

Complexidade de Pipelines: Modelos de ponta passam por pipelines de pós-treinamento multiestágio complexos (Ajuste Fino Supervisionado - SFT, Aprendizado por Reforço - RL, e fusão de modelos). Replicar esses pipelines com precisão para treinar um modelo quantizado é engenharia complexa e instável.
Disponibilidade de Dados: Os dados originais de treinamento muitas vezes não estão disponíveis ou são de qualidade inferior em conjuntos públicos.
Instabilidade em RL: Para modelos treinados com RL, o QAT pode quebrar as capacidades aprendidas durante a fase de RL, pois tenta reaprender a partir de dados de distribuição diferente (ex: dados de início frio do SFT).

2. Metodologia: QAD (Quantization-Aware Distillation)

O relatório propõe a Destilação Consciente de Quantização (QAD) como uma solução robusta para recuperar a precisão de modelos quantizados em NVFP4.

Conceito Central: Utiliza o modelo original de precisão completa (BF16) como professor e o modelo quantizado (NVFP4) como aluno.
Função de Perda: Diferente do QAT, que usa a perda de tarefa específica (ex: entropia cruzada para previsão do próximo token), o QAD utiliza a Divergência de Kullback-Leibler (KL) para minimizar a diferença entre as distribuições de saída do professor e do aluno.
Mecanismo: O aluno é treinado para imitar a distribuição de probabilidade suave (soft labels) do professor, em vez de apenas aprender os rótulos duros dos dados.
Configuração de Treinamento:
- Dados: Requer significativamente menos dados que o pós-treinamento original (ex: ~0.3B a ~6B de tokens, dependendo do modelo). Funciona bem com dados de domínio parcial ou até dados sintéticos/aleatórios.
- Hiperparâmetros: Taxas de aprendizado conservadoras (1e-6 a 1e-5) e temperatura de softmax $T=1$ para correspondência precisa.

3. Contribuições Principais

Superioridade sobre QAT em Pipelines Complexos: Demonstra que o QAD é mais estável e eficaz do que o QAT para modelos que passaram por SFT, RL e fusão de modelos, onde replicar o treinamento original é impraticável.
Recuperação de Precisão em Modelos RL: Resolve o problema crítico de modelos treinados com RL, onde o QAT frequentemente degrada o desempenho. O QAD recupera a precisão próxima ao BF16 sem quebrar as capacidades aprendidas.
Robustez à Cobertura de Dados: O método é robusto à cobertura incompleta de dados. O aluno pode recuperar capacidades em domínios não presentes no conjunto de dados de treinamento (transferência de conhecimento cruzado), desde que o professor tenha a distribuição correta.
Eficiência Prática: Oferece uma solução "padrão" para recuperação de precisão NVFP4 que não exige acesso aos dados de treinamento originais ou reexecução de pipelines complexos de RL.

4. Resultados Experimentais

Os autores avaliaram o QAD em diversos modelos, incluindo Nemotron Nano, Llama Nemotron Super e AceReason Nemotron, cobrindo tarefas de raciocínio (matemática, código) e visão.

Recuperação de Precisão: O QAD consistentemente recupera a precisão dos modelos NVFP4 para níveis próximos ao BF16 (precisão de ponto flutuante de 16 bits).
Comparação QAD vs. QAT:
- Em modelos pesados em SFT (ex: Llama Nemotron Super V1), o QAD superou o QAT em benchmarks de raciocínio (AIME25: +4.1%, GPQA-D: +1.2%).
- Em modelos pesados em RL (ex: Nemotron 3 Nano e AceReason), o QAT degradou severamente o desempenho (ex: queda de 10-20 pontos em benchmarks de código e matemática), enquanto o QAD manteve o desempenho próximo ao baseline BF16.
Robustez de Dados:
- Treinar o QAD apenas com dados de matemática permitiu recuperar desempenho em código, e vice-versa.
- O método manteve estabilidade mesmo quando treinado com tokens aleatórios, embora com desempenho ligeiramente inferior, provando que não "quebra" o modelo.
Escolha de Professor: O uso do modelo original (mesmo tamanho) como professor foi mais eficaz do que usar um modelo maior da mesma família, pois evita a necessidade de adaptar a uma distribuição diferente.

5. Significado e Conclusão

Este relatório estabelece o QAD como a técnica preferencial para a recuperação de precisão em inferência com NVFP4, especialmente para modelos de última geração que utilizam pipelines de pós-treinamento complexos.

Impacto Industrial: Permite a implantação eficiente de modelos LLMs e VLMs em hardware de 4 bits sem sacrificar a inteligência do modelo, superando as limitações da PTQ simples e a complexidade do QAT tradicional.
Viabilidade: Reduz drasticamente a barreira de entrada para a quantização de modelos avançados, pois não exige o acesso aos dados brutos de treinamento ou a recriação de fases de RL.
Disponibilidade: A NVIDIA disponibilizou os checkpoints NVFP4 e o código (Megatron-LM, NeMo, HuggingFace) para adoção imediata pela comunidade.

Em suma, o QAD transforma a quantização NVFP4 de um compromisso de precisão para uma solução viável e de alta fidelidade para a inferência de modelos de IA em larga escala.

Quantization-Aware Distillation for NVFP4 Inference Accuracy Recovery

1. O Problema: A "Falta de Sabor"

2. A Solução Antiga: Tentar Reaprender (QAT)

3. A Solução Mágica: O "Espelho" (QAD)

Por que isso é incrível? (Os 3 Superpoderes do QAD)

Resumo da Ópera

Resumo Técnico: Destilação Consciente de Quantização (QAD) para NVFP4

1. O Problema

2. Metodologia: QAD (Quantization-Aware Distillation)

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Conclusão

Mais como este

Robust Multi-agent Communication via Multi-view Message Certification

DySCo: Dynamic Semantic Compression for Effective Long-term Time Series Forecasting

Sven: Singular Value Descent as a Computationally Efficient Natural Gradient Method

Forecasting Supply Chain Disruptions with Foresight Learning

UQ-SHRED: uncertainty quantification of shallow recurrent decoder networks for sparse sensing via engression