Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization
Cet article présente MR-GPTQ, une méthode de quantisation post-entraînement spécialisée pour les formats FP4 micro-échelles (MXFP4 et NVFP4) qui, en combinant des transformations de Hadamard par blocs et des noyaux GPU optimisés, comble l'écart entre les promesses théoriques et les performances réelles pour offrir des gains de vitesse significatifs tout en maintenant une précision compétitive.