Pretraining Large Language Models with NVFP4
Este artigo apresenta uma abordagem inovadora para o pré-treinamento estável e preciso de modelos de linguagem grandes no formato NVFP4, que combina transformadas de Hadamard aleatórias, esquemas de quantização bidimensionais e arredondamento estocástico para alcançar desempenho comparável ao FP8 em um modelo de 12 bilhões de parâmetros treinado com 10 trilhões de tokens.