Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma biblioteca gigante de livros (os Modelos de Linguagem, como o Llama ou o Qwen) que são incrivelmente inteligentes, mas ocupam um espaço enorme na sua estante (memória) e são lentos para ler (processamento).

Para resolver isso, os cientistas tentam "resumir" esses livros. Eles trocam as páginas de papel de alta qualidade por um papel mais fino e barato. Isso é chamado de Quantização.

Até agora, a melhor forma de fazer isso era usar números inteiros simples (como contar em 1, 2, 3), chamados de INT4. Mas, recentemente, as empresas de chips (NVIDIA e AMD) lançaram uma nova tecnologia: formatos de ponto flutuante de 4 bits, chamados MXFP4 e NVFP4.

A promessa era que esses novos formatos seriam mágicos: ocupariam o mesmo espaço, seriam mais rápidos, mas manteriam a inteligência do livro quase intacta.

O Problema: A Promessa vs. A Realidade

Os autores deste paper (publicado na ICLR 2026) foram testar essa mágica e descobriram que ela não funcionava como esperado.

Pense nos novos formatos (MXFP4 e NVFP4) como dois tipos diferentes de caixas de ferramentas:

NVFP4: É uma caixa com ferramentas muito precisas, mas pequenas.
MXFP4: É uma caixa com ferramentas grandes e arredondadas (potências de 2), o que é ótimo para a máquina, mas perde detalhes finos.

Quando eles tentaram usar as técnicas antigas de "resumo" (algoritmos padrão) nessas novas caixas, os resultados foram desastrosos, especialmente para o MXFP4. A inteligência do modelo caía drasticamente. Era como tentar escrever um poema complexo usando apenas letras maiúsculas e arredondadas; o significado se perdia.

Por que isso acontecia?

O NVFP4 era muito sensível a "picos" de dados (números muito grandes que aparecem de vez em quando). As técnicas antigas tentavam esconder esses picos, mas acabavam destruindo a precisão da caixa pequena.
O MXFP4 usava uma régua muito "grosseira" (só potências de 2). Se o número não encaixava perfeitamente na régua, ele era arredondado de forma errada, criando erros gigantes.

A Solução: O "Micro-Rotated-GPTQ" (MR-GPTQ)

A equipe decidiu não apenas usar as ferramentas novas, mas criar uma nova maneira de empacotar os livros especificamente para essas caixas. Eles chamaram sua solução de MR-GPTQ.

Aqui está a analogia do que eles fizeram:

A Roda de Girassol (Transformada de Hadamard):
Imagine que os dados do modelo são como um grupo de pessoas em uma sala, onde algumas estão gritando muito alto (os "outliers" ou picos) e outras sussurrando. As técnicas antigas tentavam abafar os gritos, mas estragavam a conversa.
O MR-GPTQ pega essas pessoas e as faz girar em uma roda (uma transformação matemática chamada Hadamard). Ao girar, o barulho dos gritos se espalha por toda a sala, tornando-se um zumbido uniforme. Agora, a "régua" do MXFP4 consegue medir tudo com muito mais precisão, porque não há mais aquele grito estridente que quebrava a régua.
O Organizador Inteligente (Reordenação Estática):
Em vez de tentar reorganizar a biblioteca toda vez que alguém entra (o que é lento), eles reorganizaram os livros antes de colocar na estante. Isso significa que, quando o computador lê o livro, ele não precisa gastar tempo reorganizando nada. É como ter um livro já aberto na página certa.
A Ajuste Fino (Otimização de Escala):
Eles ajustaram a "régua" do MXFP4 para se encaixar perfeitamente nos dados reais, em vez de usar uma régua genérica.

O Resultado: Velocidade e Precisão

Com essa nova técnica, eles conseguiram:

Precisão: O modelo quantizado com MXFP4 usando MR-GPTQ ficou quase tão inteligente quanto o modelo original de alta qualidade (FP16), e até melhorou o NVFP4.
Velocidade: Como eles criaram um "motor" especial (chamado QuTLASS) para rodar isso nos chips mais novos (NVIDIA Blackwell/B200 e RTX 5090), o modelo ficou 2x a 4x mais rápido do que os métodos atuais, sem perder qualidade.

Resumo em uma frase

Os pesquisadores descobriram que os novos formatos de 4 bits prometidos pelas empresas de chips eram "brutos" demais para as técnicas antigas, mas, ao criar um método inteligente de "girar e ajustar" os dados antes de comprimi-los (MR-GPTQ), eles conseguiram desbloquear a verdadeira velocidade e inteligência desses chips, tornando a IA muito mais rápida e eficiente sem perder a qualidade.

Em suma: Eles não apenas consertaram a ferramenta quebrada; eles inventaram uma nova maneira de usá-la que transformou uma promessa vazia em uma realidade poderosa.

Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization

O Problema: A Promessa vs. A Realidade

A Solução: O "Micro-Rotated-GPTQ" (MR-GPTQ)

O Resultado: Velocidade e Precisão

Resumo em uma frase

Resumo Técnico: Ponte entre Promessa e Desempenho para Quantização FP4 Microescala

1. O Problema

2. Metodologia e Análise

3. Implementação de Hardware (QuTLASS)

4. Resultados Experimentais

5. Contribuições Principais

6. Significado e Conclusão

Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization

O Problema: A Promessa vs. A Realidade

A Solução: O "Micro-Rotated-GPTQ" (MR-GPTQ)

O Resultado: Velocidade e Precisão

Resumo em uma frase

Resumo Técnico: Ponte entre Promessa e Desempenho para Quantização FP4 Microescala

1. O Problema

2. Metodologia e Análise

3. Implementação de Hardware (QuTLASS)

4. Resultados Experimentais

5. Contribuições Principais

6. Significado e Conclusão

Mais como este

Robust Multi-agent Communication via Multi-view Message Certification

DySCo: Dynamic Semantic Compression for Effective Long-term Time Series Forecasting

Sven: Singular Value Descent as a Computationally Efficient Natural Gradient Method

Forecasting Supply Chain Disruptions with Foresight Learning

UQ-SHRED: uncertainty quantification of shallow recurrent decoder networks for sparse sensing via engression