Double-Precision Matrix Multiplication Emulation via Ozaki-II Scheme with FP8 Quantization

Each language version is independently generated for its own context, not a direct translation.

Imagine que você precisa construir uma torre de blocos perfeitamente equilibrada (o cálculo de precisão dupla, ou FP64), mas a única ferramenta que você tem na mão é um martelo de brinquedo que só funciona bem com blocos pequenos e simples (aritmética de baixa precisão, como FP8).

Normalmente, para construir algo grande e preciso com ferramentas pequenas, você precisaria de muitos marteladas e muita paciência. Este artigo apresenta uma nova "receita de bolo" (chamada de Esquema Ozaki-II) para fazer exatamente isso: usar a velocidade das ferramentas modernas de baixa precisão para simular a precisão de ferramentas antigas e pesadas.

Aqui está a explicação passo a passo, usando analogias do dia a dia:

1. O Problema: O Martelo de Brinquedo vs. A Torre Gigante

Nos supercomputadores de hoje, os fabricantes estão focando em criar "martelos de brinquedo" super rápidos (como INT8 e FP8) para acelerar Inteligência Artificial. Eles são incrivelmente rápidos, mas não são feitos para construir coisas que exigem precisão absoluta, como simulações de clima ou física quântica (que precisam de FP64).

O Dilema: Antigamente, usávamos blocos inteiros (INT8) para fazer essa simulação. Mas os novos computadores (como os chips NVIDIA Blackwell Ultra e Rubin) estão removendo muitos desses blocos inteiros e focando apenas em blocos de ponto flutuante (FP8).
A Questão: Como usamos esses novos blocos FP8 para construir a torre FP64 sem que ela desmorone?

2. A Solução Antiga (Esquema Ozaki-I): A Torre de Blocos Simples

A primeira tentativa foi como tentar construir a torre empilhando blocos um por um, lado a lado.

Como funciona: Você divide o número grande em muitos pedaços pequenos (fatias), calcula cada um separadamente e depois junta tudo.
O Problema: Para ter precisão suficiente, você precisa de 11 fatias. Como cada fatia precisa ser multiplicada por todas as outras, você acaba fazendo 121 cálculos (11 x 11). É como ter que martelar 121 vezes para colocar um único tijolo no lugar. É preciso, mas lento.

3. A Solução Nova (Esquema Ozaki-II): O Truque do "Resto"

Os autores propõem uma maneira mais inteligente, baseada em um truque matemático antigo chamado Teorema Chinês do Resto.

A Analogia da Caixa de Ferramentas: Imagine que você não quer construir a torre inteira de uma vez. Em vez disso, você constrói várias torres pequenas em caixas diferentes (módulos) e depois usa um código secreto para juntá-las.
O Desafio do FP8: O problema é que os blocos FP8 são "redondos" e têm uma parte de "exponente" (como uma etiqueta de tamanho) que não é muito útil para esse tipo de cálculo de precisão. Se você tentar usar a receita antiga diretamente com FP8, a precisão cai.
O Truque dos Autores: Eles criaram uma híbrida genial:
1. Para alguns blocos, eles usam um método chamado Karatsuba (que é como dobrar a eficiência de uma multiplicação, fazendo 3 cálculos em vez de 4).
2. Para outros blocos (os quadrados perfeitos), eles usam um truque de redução modular que elimina a necessidade de fazer cálculos extras.
O Resultado: Em vez de precisar de 11 fatias e fazer 121 cálculos (como no método antigo), eles conseguem a mesma precisão com apenas 12 módulos e, graças ao truque híbrido, fazem apenas 36 cálculos (ou 37 no modo super preciso).

Resumo da Ópera: Eles reduziram o trabalho de martelar de 121 vezes para 36 vezes, usando a mesma ferramenta rápida (FP8).

4. Por que FP8 e não FP16?

Você pode perguntar: "Por que não usar blocos maiores (FP16) que são mais fáceis de entender?"

A Resposta: Os blocos FP16 são grandes demais para o martelo de brinquedo atual. Se você tentar usá-los, o martelo trava e fica lento. Os blocos FP8 são o "tamanho perfeito" para a velocidade atual dos chips, permitindo que a máquina corra na velocidade máxima sem travar.

5. O Preço a Pagar: A Memória (O Espaço na Cozinha)

Toda vantagem tem um custo.

A Analogia: Para fazer esse truque de 36 cálculos rápidos, você precisa de mais espaço na sua bancada de cozinha (memória do computador) para organizar os ingredientes temporários.
O Resultado: O método novo (FP8) precisa de mais memória do que o método antigo (INT8). Em problemas gigantes, isso pode ser um problema se o computador tiver pouca memória. No entanto, para os computadores mais novos e potentes, isso é um preço aceitável pela velocidade.

6. Conclusão: Quando usar o quê?

Os autores testaram isso em placas de vídeo reais (RTX 5080 e B200) e descobriram:

Se você tem um computador com muitos blocos inteiros (INT8): O método antigo ainda é o melhor. É mais rápido e usa menos memória.
Se você tem um computador novo (como o NVIDIA Rubin) que removeu os blocos inteiros: O método novo (FP8) é a única opção viável para fazer cálculos precisos. Ele é mais rápido do que tentar fazer tudo no modo lento e tradicional.

Em suma: Os autores criaram uma "ponte" matemática que permite que os supercomputadores do futuro, que estão abandonando os blocos inteiros, continuem fazendo cálculos científicos de altíssima precisão usando apenas as ferramentas de ponto flutuante rápidas que restaram. É como aprender a cozinhar um banquete gourmet usando apenas uma air fryer em vez de um fogão completo: exige uma técnica nova, mas o resultado é delicioso e rápido.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Emulação de Multiplicação de Matrizes em Dupla Precisão via Esquema Ozaki-II com Quantização FP8

1. Problema e Contexto

No campo da Computação de Alto Desempenho (HPC), a aritmética de dupla precisão (FP64) é indispensável para garantir precisão numérica e estabilidade em aplicações científicas. No entanto, o desempenho da FP64 em novas gerações de hardware tem crescido modestamente, enquanto a aritmética de baixa precisão (como INT8, FP8, FP16) explodiu em eficiência e throughput, impulsionada pela demanda de IA.

Um desafio crítico recente é a mudança arquitetural em GPUs de última geração (como NVIDIA Blackwell Ultra e Rubin), onde os recursos de INT8 foram drasticamente reduzidos em favor de formatos de ponto flutuante de baixa precisão (FP4, FP8). Embora esquemas anteriores de emulação de FP64 (como o Esquema Ozaki-I e Ozaki-II) tenham sido bem-sucedidos usando unidades de multiplicação de matriz INT8, o Esquema Ozaki-II original não pode ser aplicado diretamente a unidades FP8. Isso ocorre porque o algoritmo Ozaki-II depende de semânticas de ponto fixo e aritmética modular que não se traduzem naturalmente para a representação de ponto flutuante FP8 (E4M3), que possui um campo de expoente e mantissa limitados, introduzindo erros de arredondamento indesejados se não for adaptado.

2. Metodologia Proposta

Os autores propõem uma nova técnica para emular a multiplicação de matrizes em dupla precisão (DGEMM) utilizando unidades de multiplicação e acumulação de matriz (MMA) FP8 E4M3, baseada no Esquema Ozaki-II. A metodologia envolve os seguintes componentes principais:

Limitação da Quantização Direta: A representação direta de inteiros em FP8 E4M3 limita o intervalo de valores representáveis (apenas inteiros consecutivos de -16 a 16), o que restringe severamente o produto dos módulos ( $P$ ) no Teorema do Resto Chinês (CRT), tornando impossível a emulação precisa de FP64 ou até mesmo FP32.
Extensão Baseada em Karatsuba: Para superar a limitação de precisão, os autores decompõem as matrizes inteiras em somas de duas matrizes FP8. Utilizando o método de Karatsuba, o produto é expandido para exigir apenas três multiplicações de matrizes FP8 em vez de quatro, permitindo a representação de valores maiores sem perda de precisão.
Redução Modular sem Karatsuba (Método Híbrido): Uma inovação chave é a identificação de que, para módulos que são quadrados perfeitos ( $p_\ell = s^2$ ), é possível eliminar a necessidade da reconstrução de Karatsuba. Ao escolher $s$ tal que $s^2 = p_\ell$ , um termo da expansão torna-se zero módulo $p_\ell$ . Isso permite calcular o produto usando apenas três multiplicações FP8 sem a complexidade adicional da reconstrução de Karatsuba para esses módulos específicos.
Estratégia Híbrida: O método combina os dois abordagens:
1. Para módulos quadrados perfeitos (ex: 1089, 1024), usa-se a técnica de redução modular simplificada.
2. Para os demais módulos, usa-se a extensão baseada em Karatsuba.
  Isso permite selecionar um conjunto de módulos que maximiza o produto $P$ com o menor número de multiplicações de matrizes FP8 possível.
Conversão e Escalonamento: O método inclui uma fase de conversão de matrizes FP64 para inteiros (ou FP8) com vetores de escalonamento ( $\mu, \nu$ ) calculados para garantir que o erro de truncamento permaneça dentro dos limites de precisão desejada (53 bits para FP64).

3. Principais Contribuições

Adaptação do Ozaki-II para FP8: Demonstra-se que a substituição direta de INT8 por FP8 no Ozaki-II falha e propõe-se uma solução algorítmica robusta baseada em decomposição e redução modular híbrida.
Redução de Operações: O método híbrido proposto reduz o número de multiplicações de matrizes FP8 necessárias para atingir a precisão de FP64. Enquanto o método puramente baseado em Karatsuba exigiria $N \ge 13$ módulos, o método híbrido atinge a precisão necessária com $N \ge 12$ módulos, reduzindo o total de multiplicações de matrizes de 39 para 36 (em modo preciso).
Justificativa de Escolha (FP8 vs. FP16/FP4): O artigo explica por que FP8 é superior a FP16/BF16 para este fim: FP8 permite o uso completo da mantissa com acumulação em FP32 sem erros de arredondamento para dimensões de problema grandes ( $k \le 2^{16}$ ), enquanto FP16 exigiria bloqueios menores que degradariam a intensidade aritmética.
Modelagem de Desempenho e Comparação: Desenvolvimento de modelos analíticos de desempenho e comparação abrangente com métodos baseados em INT8 e FP8 (Ozaki-I).
Biblioteca Open-Source: Fornecimento de uma biblioteca portátil para GPUs NVIDIA e AMD que suporta tanto o Ozaki-II baseado em INT8 quanto a nova proposta baseada em FP8, com resultados bit-a-bit reproduzíveis.

4. Resultados Experimentais

Os experimentos foram realizados em GPUs NVIDIA RTX 5080 e B200:

Precisão: O método proposto atinge precisão comparável à do Esquema Ozaki-I (implementado na cuBLAS) e ao Ozaki-II baseado em INT8, com erros relativos dentro da precisão de máquina para FP64 em matrizes de teste com distribuição normal.
Throughput (Desempenho):
- Em plataformas onde o INT8 ainda é forte (ex: RTX 5080), a emulação baseada em INT8 é mais rápida (1.3x a 2.9x) que a baseada em FP8, devido à menor contagem de operações e melhor uso de memória.
- No entanto, em arquiteturas futuras onde o INT8 é limitado (como B300/Rubin), a emulação baseada em FP8 torna-se a única opção viável para alta precisão.
- Na B200, para matrizes grandes ($16384 \times 16384$), a emulação FP8 atingiu ~64 TFLOP/s, enquanto a INT8 atingiu ~123 TFLOP/s. Ambos superam a DGEMM nativa de FP64 (que é muito lenta nessas arquiteturas).
Uso de Memória: A emulação baseada em FP8 exige um footprint de memória de trabalho maior (~~55 GB para matrizes grandes) comparado ao INT8 (~~27 GB), devido à necessidade de buffers temporários adicionais para representar os resíduos em múltiplas matrizes FP8 e armazenar intermediários em INT16.
Validação de Modelo: Os modelos analíticos de desempenho previstos alinharam-se bem com os resultados medidos, validando a eficácia da abordagem de modelagem.

5. Significado e Conclusão

Este trabalho é fundamental para o futuro do HPC em arquiteturas de IA. Ele demonstra que é possível manter a precisão de dupla precisão (FP64) em hardware moderno que está abandonando o suporte robusto a INT8 em favor de FP8.

Para Arquiteturas Atuais: O método baseado em INT8 permanece superior em termos de desempenho e eficiência de memória.
Para Arquiteturas Futuras (Rubin/Blackwell Ultra): A proposta de emulação baseada em FP8 preenche uma lacuna crítica, permitindo que aplicações científicas críticas rodem em hardware onde o INT8 é insuficiente ou inexistente.
Eficiência: A técnica híbrida (Karatsuba + Redução Modular) otimiza o uso do hardware FP8, minimizando o número de operações necessárias para atingir a precisão de 64 bits, tornando a emulação uma estratégia prática e viável para a próxima geração de supercomputadores.

Em suma, o artigo oferece uma ponte algorítmica essencial para garantir que a precisão numérica rigorosa do HPC não seja sacrificada na transição para hardware otimizado para IA de baixa precisão.

Double-Precision Matrix Multiplication Emulation via Ozaki-II Scheme with FP8 Quantization

1. O Problema: O Martelo de Brinquedo vs. A Torre Gigante

2. A Solução Antiga (Esquema Ozaki-I): A Torre de Blocos Simples

3. A Solução Nova (Esquema Ozaki-II): O Truque do "Resto"

4. Por que FP8 e não FP16?

5. O Preço a Pagar: A Memória (O Espaço na Cozinha)

6. Conclusão: Quando usar o quê?

Resumo Técnico: Emulação de Multiplicação de Matrizes em Dupla Precisão via Esquema Ozaki-II com Quantização FP8

1. Problema e Contexto

2. Metodologia Proposta

3. Principais Contribuições

4. Resultados Experimentais

5. Significado e Conclusão

Mais como este

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities