BinaryAttention: One-Bit QK-Attention for Vision and Diffusion Transformers
El artículo presenta BinaryAttention, un método que binariza las consultas y claves en los transformadores de visión y difusión para lograr una atención de 1 bit mediante operaciones bit a bit y un sesgo aprendible, logrando más del doble de velocidad que FlashAttention2 sin sacrificar la precisión.