Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction
Este artículo presenta dos técnicas de software, Escalamiento Consciente de Desbordamiento (OAS) y Escalamiento de Bloque Macro (MBS), que reducen significativamente el error de cuantización en el formato MXFP4, cerrando la brecha de precisión con NVFP4 a menos del 1% sin requerir cambios en el hardware.