Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction
Ce papier propose deux techniques logicielles, l'échelle consciente des débordements (OAS) et l'échelle de bloc macro (MBS), qui réduisent considérablement l'écart de précision entre le format MXFP4 et NVFP4 pour les grands modèles de langage, rendant ainsi MXFP4 une alternative pratique et économe en matériel sans nécessiter de modifications matérielles.