WavSLM: Single-Stream Speech Language Modeling via WavLM Distillation

Il paper presenta WavSLM, un modello linguistico per il parlato che, tramite la distillazione di rappresentazioni WavLM in un unico codice e l'ottimizzazione di un obiettivo di previsione autoregressiva, riesce a modellare congiuntamente informazioni semantiche e acustiche in un singolo flusso di token senza supervisione testuale, ottenendo prestazioni competitive con minori parametri e dati di addestramento.

Luca Della Libera, Cem Subakan, Mirco Ravanelli2026-03-06🤖 cs.AI

LadderSym: A Multimodal Interleaved Transformer for Music Practice Error Detection

Questo articolo presenta LadderSym, un nuovo trasformatore multimodale che supera i metodi esistenti per il rilevamento degli errori nella pratica musicale, ottenendo significativi miglioramenti nell'accuratezza grazie a un'architettura a due stream con allineamento inter-flusso e all'uso di prompt simbolici per ridurre le ambiguità spettrali.

Benjamin Shiue-Hal Chou, Purvish Jajal, Nick John Eliopoulos + 4 more2026-03-05🤖 cs.AI

Better audio representations are more brain-like: linking model-brain alignment with performance in downstream auditory tasks

Lo studio dimostra che i modelli audio auto-supervisionati ad alte prestazioni sviluppano rappresentazioni interne più simili all'attività cerebrale, rivelando una forte correlazione positiva tra l'accuratezza nei compiti uditivi e l'allineamento con la corteccia uditiva, suggerendo che tale somiglianza biologica emerga come sottoprodotto dell'apprendimento non supervisionato.

Leonardo Pepino, Pablo Riera, Juan Kamienkowski + 1 more2026-03-05🤖 cs.LG

OASI: Objective-Aware Surrogate Initialization for Multi-Objective Bayesian Optimization in TinyML Keyword Spotting

Il paper propone OASI, un metodo di inizializzazione per l'ottimizzazione bayesiana multi-obiettivo che utilizza soluzioni generate tramite ricottura simulata per migliorare l'efficienza e la robustezza nella progettazione di modelli di keyword spotting per TinyML, garantendo il rispetto dei vincoli di memoria su microcontrollori.

Soumen Garai, Danilo Pau, Suman Samui2026-03-05🤖 cs.LG

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Questo paper introduce CMI-RewardBench, un ecosistema completo per la valutazione dei modelli di ricompensa musicale basato su istruzioni multimodali compositive, che include dataset su larga scala, un benchmark unificato e modelli di ricompensa efficienti che dimostrano una forte correlazione con i giudizi umani e abilitano un efficace scaling al momento dell'inferenza.

Yinghao Ma, Haiwen Xia, Hewei Gao + 9 more2026-03-05🤖 cs.AI

ACES: Accent Subspaces for Coupling, Explanations, and Stress-Testing in Automatic Speech Recognition

Il paper introduce ACES, un metodo di audit basato su sottospazi rappresentativi che rivela come le informazioni relative agli accenti nei sistemi ASR siano concentrate in sottospazi a bassa dimensionalità e profondamente intrecciate con le caratteristiche critiche per il riconoscimento, rendendo questi sottospazi strumenti diagnostici essenziali piuttosto che semplici leve per l'eliminazione delle disparità.

Swapnil Parekh2026-03-05🤖 cs.AI