SEMamba++: A General Speech Restoration Framework Leveraging Global, Local, and Periodic Spectral Patterns

Il paper presenta SEMamba++, un nuovo framework generale per il ripristino del parlato che integra bias induttivi specifici per il linguaggio, tra cui un blocco di estrazione delle frequenze (Frequency GLP) e un blocco di elaborazione duale tempo-frequenza multi-risoluzione, ottenendo prestazioni superiori rispetto ai modelli esistenti mantenendo un'efficienza computazionale.

Yongjoon Lee, Jung-Woo ChoiFri, 13 Ma⚡ eess

Affect Decoding in Phonated and Silent Speech Production from Surface EMG

Questo studio introduce un nuovo dataset e dimostra che l'analisi dell'attività muscolare facciale tramite elettromiografia di superficie (sEMG) permette di decodificare con affidabilità stati emotivi come la frustrazione, generalizzando efficacemente sia nel parlato fonato che in quello silenzioso.

Simon Pistrosch, Kleanthis Avramidis, Tiantian Feng, Jihwan Lee, Monica Gonzalez-Machorro, Shrikanth Narayanan, Björn W. SchullerFri, 13 Ma⚡ eess

Silent Speech Interfaces in the Era of Large Language Models: A Comprehensive Taxonomy and Systematic Review

Questo articolo presenta una revisione sistematica e una tassonomia olistica delle Interfacce di Parlato Silenzioso (SSI), esaminando come l'integrazione con i Large Language Models e le nuove tecnologie indossabili superino le limitazioni tradizionali per raggiungere una praticabilità reale, pur ponendo al contempo sfide etiche e di sicurezza neurale.

Kele Xu, Yifan Wang, Ming Feng, Qisheng Xu, Wuyang Chen, Yutao Dou, Cheng Yang, Huaimin WangFri, 13 Ma⚡ eess

Resurfacing Paralinguistic Awareness in Large Audio Language Models

Questo lavoro introduce un protocollo di fine-tuning potenziato (PE-FT) che, attraverso analisi strato per strato e tecniche mirate, risveglia la consapevolezza paralinguistica nei Modelli Linguistici Audio di grandi dimensioni, permettendo loro di cogliere e rispondere efficacemente ai segnali contestuali impliciti oltre al semplice contenuto testuale.

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition

Il paper presenta Dr. SHAP-AV, un framework che utilizza i valori di Shapley per analizzare il contributo delle modalità audio e visivo nella riconoscimento della parola audio-visivo, rivelando come i modelli mantengano un pregiudizio verso l'audio anche in condizioni di rumore e come l'equilibrio modale sia influenzato principalmente dal rapporto segnale-rumore.

Umberto Cappellazzo, Stavros Petridis, Maja PanticFri, 13 Ma⚡ eess

Relationship between objective and subjective perceptual measures of speech in individuals with head and neck cancer

Questo studio dimostra che, nei pazienti con tumori testa-collo, le misure soggettive di intelligibilità, articolazione e qualità vocale sono strettamente correlate e che una singola misura di intelligibilità potrebbe essere sufficiente per il monitoraggio clinico, in quanto le valutazioni soggettive corrispondono bene alle misure acustiche oggettive.

Bence Mark Halpern, Thomas Tienkamp, Teja Rebernik + 4 more2026-03-10⚡ eess

A Large-Scale Probing Analysis of Speaker-Specific Attributes in Self-Supervised Speech Representations

Questo studio analizza su larga scala come 11 modelli di apprendimento auto-supervisionato del parlato codifichino gli attributi specifici del parlante, rivelando una gerarchia in cui gli strati iniziali catturano l'acustica fondamentale, quelli intermedi la prosodia dinamica e, controintuitivamente, gli strati finali dei modelli più grandi recuperano l'identità del parlante, sfidando il consenso secondo cui questi ultimi contengono esclusivamente contenuti linguistici astratti.

Aemon Yat Fei Chiu, Kei Ching Fung, Roger Tsz Yeung Li + 2 more2026-03-06💻 cs

TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

Il paper propone TSPC, un'architettura a due stadi incentrata sui fonemi che utilizza un set fonemico vietnamita esteso come rappresentazione intermedia per migliorare il riconoscimento del parlato code-switching vietnamita-inglese, ottenendo risultati superiori rispetto alle basi esistenti con una riduzione delle risorse computazionali necessarie.

Tran Nguyen Anh, Truong Dinh Dung, Vo Van Nam + 1 more2026-03-06💻 cs

BabyHuBERT: Multilingual Self-Supervised Learning for Segmenting Speakers in Child-Centered Long-Form Recordings

Il paper presenta BabyHuBERT, un modello di apprendimento auto-supervisionato multilingue addestrato su 13.000 ore di registrazioni infantili che supera le prestazioni dei modelli esistenti nel distinguere i bambini dagli adulti in registrazioni lunghe e naturali, offrendo risorse preziose per lo studio dello sviluppo linguistico in oltre 40 lingue.

Théo Charlot, Tarek Kunze, Maxime Poli + 3 more2026-03-06💻 cs

Conversational Speech Reveals Structural Robustness Failures in SpeechLLM Backbones

Lo studio rivela che i modelli linguistici alla base dei sistemi SpeechLLM mostrano fragilità strutturali nell'elaborazione del discorso conversazionale, tendendo a sovracancellare contenuti fluenti a favore dell'astrazione semantica e dimostrando che la robustezza è plasmata da specifici obiettivi di addestramento piuttosto che dalla semplice scalabilità o dal fine-tuning.

Maria Teleki, Sai Janjur, Haoran Liu + 11 more2026-03-06💻 cs