Polynomial Mixing for Efficient Self-supervised Speech Encoders
Questo lavoro propone il Polynomial Mixer (PoM), un nuovo meccanismo di mixing dei token con complessità lineare che sostituisce l'attenzione self-attention nei modelli speech-to-text auto-supervisionati, offrendo un miglior compromesso tra efficienza computazionale e prestazioni nel riconoscimento vocale.