Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction
이 논문은 하드웨어 변경 없이 소프트웨어 기법인 오버플로우 인식 스케일링 (OAS) 과 매크로 블록 스케일링 (MBS) 을 도입하여 MXFP4 의 양자화 오차를 줄이고 NVFP4 와의 정확도 격차를 10% 에서 1% 미만으로 축소함으로써, MXFP4 를 하드웨어 효율성을 유지하면서 NVFP4 에 버금가는 성능을 내는 실용적인 대안으로 재탄생시켰음을 보여줍니다.