Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization
Diese Arbeit schließt die Lücke zwischen Versprechen und Leistung bei der FP4-Quantisierung, indem sie den neu entwickelten MR-GPTQ-Algorithmus mit spezialisierten GPU-Kernen einführt, der durch Block-Hadamard-Transformationen und formatoptimierte Techniken auf NVIDIA-B200- und RTX5090-Hardware eine bis zu 4-fache End-to-End-Beschleunigung bei gleichzeitiger Erhaltung oder Steigerung der Genauigkeit ermöglicht.