Attn-QAT: 4-Bit Attention With Quantization-Aware Training
Ce papier présente Attn-QAT, la première étude systématique de l'entraînement sensible à la quantification (QAT) pour l'attention en 4 bits, qui surmonte les instabilités d'entraînement en corrigeant les hypothèses de précision implicites et en permettant une accélération jusqu'à 1,5x sur les GPU RTX 5090 sans heuristiques de mitigation des valeurs aberrantes.