BinaryAttention: One-Bit QK-Attention for Vision and Diffusion Transformers
Die Arbeit stellt BinaryAttention vor, eine Methode zur 1-Bit-Quantisierung von QK-Attention in Vision- und Diffusion-Transformern, die durch binäre Operationen und einen lernbaren Bias eine über 2-fache Beschleunigung gegenüber FlashAttention2 bei gleichzeitiger Beibehaltung oder sogar Steigerung der Genauigkeit ermöglicht.