Thin Keys, Full Values: Reducing KV Cache via Low-Dimensional Attention Selection
Il paper propone di ridurre la dimensione delle chiavi (keys) nell'attenzione dei transformer, sfruttando l'asimmetria tra la selezione (a bassa dimensionalità) e il trasferimento di valori (ad alta dimensionalità), per ottenere un risparmio significativo della cache KV con una minima perdita di qualità del modello.