Pretraining Large Language Models with NVFP4

Este artigo apresenta uma abordagem inovadora para o pré-treinamento estável e preciso de modelos de linguagem grandes no formato NVFP4, que combina transformadas de Hadamard aleatórias, esquemas de quantização bidimensionais e arredondamento estocástico para alcançar desempenho comparável ao FP8 em um modelo de 12 bilhões de parâmetros treinado com 10 trilhões de tokens.

NVIDIA, Felix Abecassis, Anjulie Agrusa, Dong Ahn, Jonah Alben, Stefania Alborghetti, Michael Andersch, Sivakumar Arayandi, Alexis Bjorlin, Aaron Blakeman, Evan Briones, Ian Buck, Bryan Catanzaro, Muya Chang, Jinhang Choi, Mike Chrzanowski, Eric Chung, Victor Cui, Steve Dai, Bita Darvish Rouhani, Carlo del Mundo, Deena Donia, Burc Eryilmaz, Henry Estela, Abhinav Goel, Oleg Goncharov, Yugi Guvvala, Robert Hesse, Russell Hewett, Herbert Hum, Ujval Kapasi, Brucek Khailany, Mikail Khona, Nick Knight, Alex Kondratenko, Ronny Krashinsky, Ben Lanir, Simon Layton, Michael Lightstone, Daniel Lo, Paulius Micikevicius, Asit Mishra, Tim Moon, Deepak Narayanan, Chao Ni, Abhijit Paithankar, Satish Pasumarthi, Ankit Patel, Mostofa Patwary, Ashwin Poojary, Gargi Prasad, Sweta Priyadarshi, Yigong Qin, Xiaowei Ren, Oleg Rybakov, Charbel Sakr, Sanjeev Satheesh, Stas Sergienko, Pasha Shamis, Kirthi Shankar, Nishant Sharma, Mohammad Shoeybi, Michael Siu, Misha Smelyanskiy, Darko Stosic, Dusan Stosic, Bor-Yiing Su, Frank Sun, Nima Tajbakhsh, Shelby Thomas, Przemek Tredak, Evgeny Tsykunov, Gandhi Vaithilingam, Aditya Vavre, Rangharajan Venkatesan, Roger Waleffe, Qiyu Wan, Hexin Wang, Mengdi Wang, Lizzie Wei, Hao Wu, Evan Wu, Keith Wyss, Ning Xu, Jinze Xue, Charlene Yang, Yujia Zhai, Ruoxi Zhang, Jingyang Zhu, Zhongbo Zhu

Publicado 2026-03-06
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está construindo um arranha-céu gigante (um Modelo de Linguagem Grande, ou LLM) para ensinar uma máquina a pensar como um humano. Para fazer isso, você precisa de milhões de tijolos (dados) e uma equipe de engenheiros (o computador) trabalhando 24 horas por dia.

O problema é que, até agora, os tijolos eram feitos de ouro maciço (precisão de 8 bits ou FP8). São tijolos perfeitos, super resistentes, mas pesados e caros. Construir um prédio inteiro com ouro gasta uma fortuna de energia e tempo, e o computador fica cansado.

A NVIDIA, nesta nova pesquisa, descobriu como construir o mesmo prédio usando tijolos de plástico leve (precisão de 4 bits, chamados NVFP4). Isso tornaria a construção duas ou três vezes mais rápida e usaria metade da energia.

Mas há um problema: Tijolos de plástico são frágeis. Se você tentar construir um arranha-céu gigante só com eles, o prédio pode desmoronar ou ficar torto porque o plástico não aguenta certas pressões (os "picos" de dados).

Aqui está a solução mágica que a NVIDIA encontrou, explicada com analogias simples:

1. O Formato NVFP4: O "Bloco Inteligente"

Antes, os tijolos de plástico eram todos iguais e rígidos. O novo formato NVFP4 é como um bloco de construção inteligente.

  • Em vez de tratar 32 tijolos como um grupo grande e desajeitado, o NVFP4 agrupa apenas 16 tijolos de cada vez.
  • Para cada grupo de 16, ele usa uma "régua de medição" (escala) muito mais precisa.
  • A analogia: Imagine que você está empilhando caixas. O método antigo usava uma régua gigante para medir 32 caixas de uma vez, o que deixava algumas caixas pequenas sem espaço e outras grandes esmagadas. O NVFP4 usa uma régua menor e mais precisa para grupos menores, garantindo que nada seja esmagado e nada fique solto.

2. O Problema dos "Gigantes" (Outliers)

Em qualquer pilha de dados, existem alguns números que são gigantes (valores extremos) e outros que são minúsculos. Em 4 bits, esses "gigantes" podem quebrar o sistema.

  • A Solução (Transformada de Hadamard): Imagine que você tem uma sala cheia de pessoas, e algumas estão gritando muito alto (os outliers), atrapalhando todos. O método NVFP4 usa um "espelho mágico" (a Transformada de Hadamard) que espalha o grito de uma pessoa por toda a sala, transformando um grito estridente em um murmúrio suave que todos podem ouvir sem se assustar. Isso evita que o prédio desabe por causa de um único valor extremo.

3. A Regra do "Espelho Quebrado" (Escalonamento 2D)

Quando você constrói algo, você precisa olhar para ele de frente (para a frente) e de trás (para trás) para garantir que está tudo certo.

  • O problema é que, ao usar tijolos de plástico, a forma como você mede a frente é diferente da forma como mede o fundo. É como se você olhasse para um objeto e ele mudasse de forma dependendo do ângulo. Isso confunde o cérebro da máquina.
  • A Solução (Escalonamento 2D): A NVIDIA criou uma técnica onde eles garantem que, mesmo que a régua mude de ângulo, a "forma" do tijolo permaneça a mesma. É como se eles usassem um molde especial que garante que o tijolo seja idêntico, seja visto de frente ou de trás. Isso evita que a matemática da construção fique confusa.

4. A Estratégia de "Segurança" (Precisão Mista)

Mesmo com tijolos de plástico inteligentes, alguns cantos do prédio são tão críticos que não podem correr riscos.

  • A Solução: Eles deixaram os últimos andares do prédio (as camadas finais do modelo) feitos de ouro (precisão alta, BF16).
  • A analogia: A maior parte do prédio é feita de plástico leve e rápido, mas os alicerces e o topo (onde a decisão final é tomada) são reforçados com ouro. Isso garante que, se algo der errado lá embaixo, o prédio não desabe.

5. O "Jogo de Sorte" (Arredondamento Estocástico)

Quando você corta um tijolo de plástico para caber em um espaço, você precisa arredondar. Se você sempre arredonda para cima ou sempre para baixo, acumula um erro (viés).

  • A Solução: Eles introduziram um pouco de sorte. Às vezes, eles arredondam para cima, às vezes para baixo, baseado em uma probabilidade.
  • A analogia: É como jogar uma moeda para decidir se você ganha ou perde um centavo. A longo prazo, isso cancela os erros e mantém a conta justa, evitando que o prédio fique torto por causa de pequenos desvios acumulados.

O Resultado Final?

A NVIDIA testou isso construindo um modelo gigante de 12 bilhões de parâmetros com 10 trilhões de palavras (tokens).

  • O Milagre: O prédio feito com "tijolos de plástico" (NVFP4) ficou tão forte e preciso quanto o prédio feito de "ouro" (FP8).
  • Eles conseguiram a mesma inteligência, o mesmo raciocínio e a mesma capacidade de responder perguntas, mas usando metade da memória e até 3 vezes mais velocidade.

Resumo da Ópera:
A NVIDIA aprendeu a usar materiais mais leves e baratos para construir supercomputadores, mas criou um conjunto de regras de engenharia (os truques matemáticos acima) para garantir que a estrutura não desmorone. Isso significa que, no futuro, poderemos treinar modelos de IA muito mais inteligentes e rápidos, gastando menos energia e dinheiro. É como passar de construir com blocos de ouro para construir com blocos de Lego super-resistentes.