Measuring the Redundancy of Decoder Layers in SpeechLLMs
Lo studio dimostra che i modelli SpeechLLM presentano un'elevata ridondanza nei loro decoder, ereditata dai LLM pre-addestrati, permettendo di rimuovere fino al 40% dei livelli mantenendo buone prestazioni in ASR e traduzione, con una struttura di ridondanza globale che abilita un'unica architettura ottimizzata per più compiti.