Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization

Este artigo apresenta o MR-GPTQ, um método de quantização especializado para formatos FP4 microescalonados que utiliza transformadas de Hadamard e otimizações específicas para superar as limitações de precisão atuais, alcançando ganhos significativos de velocidade em GPUs modernas sem sacrificar a acurácia dos modelos de linguagem.

Vage Egiazarian, Roberto L. Castro, Denis Kuznedelev, Andrei Panferov, Eldar Kurtic, Shubhra Pandit, Alexandre Marques, Mark Kurtz, Saleh Ashkboos, Torsten Hoefler, Dan Alistarh

Publicado 2026-03-04
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma biblioteca gigante de livros (os Modelos de Linguagem, como o Llama ou o Qwen) que são incrivelmente inteligentes, mas ocupam um espaço enorme na sua estante (memória) e são lentos para ler (processamento).

Para resolver isso, os cientistas tentam "resumir" esses livros. Eles trocam as páginas de papel de alta qualidade por um papel mais fino e barato. Isso é chamado de Quantização.

Até agora, a melhor forma de fazer isso era usar números inteiros simples (como contar em 1, 2, 3), chamados de INT4. Mas, recentemente, as empresas de chips (NVIDIA e AMD) lançaram uma nova tecnologia: formatos de ponto flutuante de 4 bits, chamados MXFP4 e NVFP4.

A promessa era que esses novos formatos seriam mágicos: ocupariam o mesmo espaço, seriam mais rápidos, mas manteriam a inteligência do livro quase intacta.

O Problema: A Promessa vs. A Realidade

Os autores deste paper (publicado na ICLR 2026) foram testar essa mágica e descobriram que ela não funcionava como esperado.

Pense nos novos formatos (MXFP4 e NVFP4) como dois tipos diferentes de caixas de ferramentas:

  1. NVFP4: É uma caixa com ferramentas muito precisas, mas pequenas.
  2. MXFP4: É uma caixa com ferramentas grandes e arredondadas (potências de 2), o que é ótimo para a máquina, mas perde detalhes finos.

Quando eles tentaram usar as técnicas antigas de "resumo" (algoritmos padrão) nessas novas caixas, os resultados foram desastrosos, especialmente para o MXFP4. A inteligência do modelo caía drasticamente. Era como tentar escrever um poema complexo usando apenas letras maiúsculas e arredondadas; o significado se perdia.

Por que isso acontecia?

  • O NVFP4 era muito sensível a "picos" de dados (números muito grandes que aparecem de vez em quando). As técnicas antigas tentavam esconder esses picos, mas acabavam destruindo a precisão da caixa pequena.
  • O MXFP4 usava uma régua muito "grosseira" (só potências de 2). Se o número não encaixava perfeitamente na régua, ele era arredondado de forma errada, criando erros gigantes.

A Solução: O "Micro-Rotated-GPTQ" (MR-GPTQ)

A equipe decidiu não apenas usar as ferramentas novas, mas criar uma nova maneira de empacotar os livros especificamente para essas caixas. Eles chamaram sua solução de MR-GPTQ.

Aqui está a analogia do que eles fizeram:

  1. A Roda de Girassol (Transformada de Hadamard):
    Imagine que os dados do modelo são como um grupo de pessoas em uma sala, onde algumas estão gritando muito alto (os "outliers" ou picos) e outras sussurrando. As técnicas antigas tentavam abafar os gritos, mas estragavam a conversa.
    O MR-GPTQ pega essas pessoas e as faz girar em uma roda (uma transformação matemática chamada Hadamard). Ao girar, o barulho dos gritos se espalha por toda a sala, tornando-se um zumbido uniforme. Agora, a "régua" do MXFP4 consegue medir tudo com muito mais precisão, porque não há mais aquele grito estridente que quebrava a régua.

  2. O Organizador Inteligente (Reordenação Estática):
    Em vez de tentar reorganizar a biblioteca toda vez que alguém entra (o que é lento), eles reorganizaram os livros antes de colocar na estante. Isso significa que, quando o computador lê o livro, ele não precisa gastar tempo reorganizando nada. É como ter um livro já aberto na página certa.

  3. A Ajuste Fino (Otimização de Escala):
    Eles ajustaram a "régua" do MXFP4 para se encaixar perfeitamente nos dados reais, em vez de usar uma régua genérica.

O Resultado: Velocidade e Precisão

Com essa nova técnica, eles conseguiram:

  • Precisão: O modelo quantizado com MXFP4 usando MR-GPTQ ficou quase tão inteligente quanto o modelo original de alta qualidade (FP16), e até melhorou o NVFP4.
  • Velocidade: Como eles criaram um "motor" especial (chamado QuTLASS) para rodar isso nos chips mais novos (NVIDIA Blackwell/B200 e RTX 5090), o modelo ficou 2x a 4x mais rápido do que os métodos atuais, sem perder qualidade.

Resumo em uma frase

Os pesquisadores descobriram que os novos formatos de 4 bits prometidos pelas empresas de chips eram "brutos" demais para as técnicas antigas, mas, ao criar um método inteligente de "girar e ajustar" os dados antes de comprimi-los (MR-GPTQ), eles conseguiram desbloquear a verdadeira velocidade e inteligência desses chips, tornando a IA muito mais rápida e eficiente sem perder a qualidade.

Em suma: Eles não apenas consertaram a ferramenta quebrada; eles inventaram uma nova maneira de usá-la que transformou uma promessa vazia em uma realidade poderosa.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →