Unleashing Low-Bit Inference on Ascend NPUs: A Comprehensive Evaluation of HiFloat Formats

Este trabalho avalia os formatos HiFloat (HiF8 e HiF4) para inferência de LLMs em NPUs Ascend, demonstrando que sua abordagem hierárquica supera as limitações de precisão dos formatos inteiros em baixos bits e é totalmente compatível com frameworks de quantização de ponta.

Pengxiang Zhao, Hui-Ling Zhen, Xing Li, Han Bao, Weizhe Lin, Zhiyuan Yang, Manyi Zhang, Yuanyong Luo, Ziwei Yu, Xin Wang, Mingxuan Yuan, Xianzhi Yu, Zhenhua Dong

Publicado 2026-03-03
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma biblioteca gigante de livros (os Modelos de Linguagem, ou LLMs, como o ChatGPT). Para ler esses livros rapidamente, você precisa de uma estante muito grande e um caminhão de entrega rápido. Mas, à medida que os livros ficam mais espessos e complexos, a estante não cabe mais e o caminhão fica lento.

Para resolver isso, os cientistas tentam "resumir" os livros, tirando detalhes que não são essenciais. Isso é chamado de quantização. A ideia é transformar números complexos (que ocupam muito espaço) em números menores e mais simples.

O problema é: como resumir sem perder a história?

Se você usar apenas números inteiros simples (como contar de 1 a 10), você perde a precisão em momentos importantes. Se usar números decimais muito complexos, você gasta espaço demais.

Esta pesquisa da Huawei (sobre chips Ascend) testou uma nova família de formatos de números chamada HiFloat (HiF8 e HiF4) para ver se eles são a solução perfeita.

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Problema: A "Caixa de Ferramentas" Errada

Imagine que você tem duas tarefas:

  • Tarefa A (Pesos): Organizar uma caixa de parafusos que são todos do mesmo tamanho e muito parecidos.
  • Tarefa B (Ativações): Organizar uma caixa de ferramentas onde há desde um alfinete minúsculo até um martelo gigante, e de repente aparece um caminhão de carga (os "outliers" ou valores extremos).

O estudo descobriu que:

  • Para a Tarefa A (Pesos), usar números inteiros simples (INT8) é melhor. É como usar uma régua com marcas uniformes; funciona perfeitamente porque os parafusos são previsíveis.
  • Para a Tarefa B (Ativações), números inteiros falham. Se você tem um martelo gigante e um alfinete na mesma caixa, uma régua uniforme vai esmagar o alfinete para caber o martelo. Aqui, você precisa de uma régua flexível (formato de ponto flutuante) que estica e contrai.

2. A Solução: O Formato HiFloat (O "Camaleão")

Os autores criaram o HiFloat, que é como uma caixa de ferramentas inteligente que muda de forma dependendo do que você está guardando.

  • HiF8 (8 bits): É como uma régua que tem marcas finas no começo (para os detalhes pequenos) e marcas mais grossas no final (para os valores grandes).

    • Resultado: Para os "parafusos" (pesos), ele é um pouco menos eficiente que a régua simples (INT8), mas para as "ferramentas variadas" (ativações), ele é excelente porque não perde os detalhes pequenos nem explode com os grandes.
  • HiF4 (4 bits): Aqui é onde a mágica acontece. Tentar guardar tudo em apenas 4 bits é como tentar colocar uma casa inteira em uma caixa de sapatos.

    • Os formatos antigos (INT4) falharam miseravelmente: a casa desmoronou (o modelo perdeu a inteligência).
    • O HiF4 usa uma técnica chamada Escala Hierárquica. Imagine que, em vez de tentar medir a casa inteira de uma vez, você divide a casa em quartos, depois em paredes, e depois em tijolos.
    • Ele usa uma "régua mestre" para o bloco todo, e "réguas menores" para cada grupo de peças dentro desse bloco. Isso permite que ele guarde tanto o alfinete quanto o martelo na mesma caixa pequena sem perder a precisão.

3. Os Resultados: O Que Eles Descobriram?

O estudo comparou o HiFloat com outras soluções famosas (como as da NVIDIA e da Microsoft) em três cenários:

  1. Memória (Pesos): O formato inteiro (INT8) ainda é o rei aqui. O HiFloat é bom, mas não ganha de quem usa números inteiros simples para dados estáticos.
  2. Processamento (Ativações): O HiFloat brilha. Ele lida com os "picos" de dados (aqueles valores estranhos e grandes que confundem os modelos) muito melhor que os inteiros.
  3. A Memória de Curto Prazo (KV Cache): Quando o modelo está conversando com você, ele precisa lembrar do que foi dito há 10 linhas atrás. Guardar essa memória em 4 bits é um pesadelo.
    • O Veredito: O HiF4 foi o vencedor absoluto. Enquanto os outros formatos (INT4 e MXFP4) "alucinavam" e esqueciam tudo quando tentavam usar 4 bits para tudo, o HiF4 manteve a conversa coerente, perdendo muito pouca inteligência.

4. A Grande Conclusão (A Metáfora Final)

Pense na Inteligência Artificial como um chef de cozinha.

  • Formatos Inteiros (INT4): É como tentar cozinhar um banquete usando apenas uma colher de sopa. Você consegue fazer o básico, mas se o prato exigir uma pitada de sal ou um corte fino, o prato fica estragado.
  • Formatos Antigos de Ponto Flutuante: São como ter 100 colheres diferentes, mas todas do mesmo tamanho. Você gasta muito tempo trocando de colher e ainda assim não consegue medir o sal direito.
  • HiFloat (HiF4): É como ter um kit de utensílios magnético. Se você precisa de uma colher grande, ele vira uma concha. Se precisa de uma pitada, ele vira um pires. Ele se adapta instantaneamente ao que o chef precisa.

Resumo para levar para casa:
Se você quer rodar modelos de IA gigantes em chips mais baratos e rápidos (como os da Huawei Ascend), usar o formato HiFloat (especialmente o HiF4) é como encontrar o "Santo Graal". Ele permite que você reduza o tamanho do modelo em 4 vezes (ou mais) sem que ele perca a capacidade de raciocinar, algo que os métodos antigos não conseguiam fazer sem "quebrar" o modelo.

É um passo gigante para ter assistentes de IA superinteligentes rodando em dispositivos mais acessíveis, sem precisar de supercomputadores.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →