Thin Keys, Full Values: Reducing KV Cache via Low-Dimensional Attention Selection
Este paper propone y valida que la dimensión de las claves en la atención de los transformadores puede reducirse drásticamente mediante selección de baja dimensión y compresión SVD seguida de ajuste fino, logrando un ahorro del 75% en la memoria de caché KV con una pérdida de calidad mínima y permitiendo servir a más usuarios concurrentes.