Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction
Die Studie stellt zwei rein softwarebasierte Techniken, Overflow-Aware Scaling (OAS) und Macro Block Scaling (MBS), vor, die die Genauigkeit des MXFP4-Formats für Large Language Models signifikant verbessern und die Leistungslücke zu NVFP4 von durchschnittlich 10 % auf unter 1 % verringern, ohne Hardwareänderungen vorzunehmen.