Diagnosing FP4 inference: a layer-wise and block-wise sensitivity analysis of NVFP4 and MXFP4
Deze studie analyseert systematisch de gevoeligheid voor kwantisatie van twee FP4-formaten (MXFP4 en NVFP4) in Qwen2.5-modellen en onthult dat de MLP-up- en down-projectielagen het meest gevoelig zijn, terwijl de gevoeligheid niet uitsluitend beperkt blijft tot de laatste blokken.