Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction
Este artigo apresenta duas técnicas de software, Escalonamento Consciente de Estouro (OAS) e Escalonamento de Macro Bloco (MBS), que reduzem drasticamente a lacuna de precisão entre os formatos MXFP4 e NVFP4 em Grandes Modelos de Linguagem, permitindo que o padrão MXFP4 atinja acurácia quase equivalente ao NVFP4 sem exigir alterações no hardware.