Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction
Il paper introduce due tecniche software, Overflow-Aware Scaling e Macro Block Scaling, che riducono drasticamente il divario di accuratezza tra il formato MXFP4 e NVFP4 nei grandi modelli linguistici, rendendo MXFP4 un'alternativa pratica ed efficiente dal punto di vista hardware senza richiedere modifiche all'hardware.