Diagnosing FP4 inference: a layer-wise and block-wise sensitivity analysis of NVFP4 and MXFP4
Este estudio realiza un análisis sistemático de la sensibilidad de la inferencia en formatos de punto flotante de 4 bits (MXFP4 y NVFP4) en modelos Qwen2.5 de distintas escalas, revelando que las capas de proyección del MLP son las más críticas y que la sensibilidad no se limita exclusivamente a los bloques finales del modelo.