eess.AS articoli | Gist.Science

SEMamba++: A General Speech Restoration Framework Leveraging Global, Local, and Periodic Spectral Patterns

Il paper presenta SEMamba++, un nuovo framework generale per il ripristino del parlato che integra bias induttivi specifici per il linguaggio, tra cui un blocco di estrazione delle frequenze (Frequency GLP) e un blocco di elaborazione duale tempo-frequenza multi-risoluzione, ottenendo prestazioni superiori rispetto ai modelli esistenti mantenendo un'efficienza computazionale.

Yongjoon Lee, Jung-Woo ChoiFri, 13 Ma⚡ eess

RAF: Relativistic Adversarial Feedback For Universal Speech Synthesis

Il paper propone RAF (Relativistic Adversarial Feedback), un nuovo obiettivo di addestramento per vocoder GAN che sfrutta modelli di apprendimento auto-supervisionato e l'accoppiamento relativistico per migliorare la fedeltà e la generalizzazione, permettendo a un modello BigVGAN-base addestrato con RAF di superare le prestazioni di un modello LSGAN con solo il 12% dei parametri.

Yongjoon Lee, Jung-Woo ChoiFri, 13 Ma⚡ eess

Affect Decoding in Phonated and Silent Speech Production from Surface EMG

Questo studio introduce un nuovo dataset e dimostra che l'analisi dell'attività muscolare facciale tramite elettromiografia di superficie (sEMG) permette di decodificare con affidabilità stati emotivi come la frustrazione, generalizzando efficacemente sia nel parlato fonato che in quello silenzioso.

Simon Pistrosch, Kleanthis Avramidis, Tiantian Feng, Jihwan Lee, Monica Gonzalez-Machorro, Shrikanth Narayanan, Björn W. SchullerFri, 13 Ma⚡ eess

ReDimNet2: Scaling Speaker Verification via Time-Pooled Dimension Reshaping

Il paper presenta ReDimNet2, un'architettura neurale migliorata per la verifica del parlante che, introducendo un pooling sulla dimensione temporale nel percorso di elaborazione 1D, consente una scalabilità più aggressiva dei canali senza un aumento proporzionale del calcolo, ottenendo prestazioni superiori rispetto a ReDimNet su tutti i livelli di complessità.

Ivan Yakovlev, Anton OkhotnikovFri, 13 Ma⚡ eess

Acoustic-to-Articulatory Inversion of Clean Speech Using an MRI-Trained Model

Questo studio dimostra che un modello di inversione acustico-articolatoria addestrato su dati MRI denoizzati può essere efficacemente applicato a segnali di parlato registrati in ambiente acustico pulito, ottenendo prestazioni comparabili con un errore quadratico medio di 1,56 mm.

Sofiane Azzouz, Pierre-André Vuissoz, Yves LaprieFri, 13 Ma⚡ eess

Reconstruction of the Vocal Tract from Speech via Phonetic Representations Using MRI Data

Questo studio presenta un'analisi comparativa che dimostra come la correzione manuale delle segmentazioni fonetiche allineate consenta di ricostruire la geometria del tratto vocale da segnali MRI con prestazioni vicine a quelle della baseline basata su MFCC.

Sofiane Azzouz, Pierre-André Vuissoz, Yves LaprieFri, 13 Ma⚡ eess

Silent Speech Interfaces in the Era of Large Language Models: A Comprehensive Taxonomy and Systematic Review

Questo articolo presenta una revisione sistematica e una tassonomia olistica delle Interfacce di Parlato Silenzioso (SSI), esaminando come l'integrazione con i Large Language Models e le nuove tecnologie indossabili superino le limitazioni tradizionali per raggiungere una praticabilità reale, pur ponendo al contempo sfide etiche e di sicurezza neurale.

Kele Xu, Yifan Wang, Ming Feng, Qisheng Xu, Wuyang Chen, Yutao Dou, Cheng Yang, Huaimin WangFri, 13 Ma⚡ eess

Resurfacing Paralinguistic Awareness in Large Audio Language Models

Questo lavoro introduce un protocollo di fine-tuning potenziato (PE-FT) che, attraverso analisi strato per strato e tecniche mirate, risveglia la consapevolezza paralinguistica nei Modelli Linguistici Audio di grandi dimensioni, permettendo loro di cogliere e rispondere efficacemente ai segnali contestuali impliciti oltre al semplice contenuto testuale.

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition

Il paper presenta Dr. SHAP-AV, un framework che utilizza i valori di Shapley per analizzare il contributo delle modalità audio e visivo nella riconoscimento della parola audio-visivo, rivelando come i modelli mantengano un pregiudizio verso l'audio anche in condizioni di rumore e come l'equilibrio modale sia influenzato principalmente dal rapporto segnale-rumore.

Umberto Cappellazzo, Stavros Petridis, Maja PanticFri, 13 Ma⚡ eess

Controllable Dance Generation with Style-Guided Motion Diffusion

Il paper propone SGMD, un modello di diffusione guidato dallo stile che integra prompt stilistici e un meccanismo di mascheramento spaziotemporale per generare sequenze di danza realistiche, stilisticamente coerenti e controllabili in base alla musica e alle preferenze dell'utente.

Hongsong Wang, Ying Zhu, Xin Geng + 1 more2026-03-11⚡ eess

ExSampling: a system for the real-time ensemble performance of field-recorded environmental sounds

Il paper propone ExSampling, un sistema integrato che combina un'applicazione di registrazione e un ambiente di Deep Learning per abilitare l'esecuzione musicale in tempo reale di suoni ambientali, automatizzandone il mapping su Ableton Live e facilitando l'interazione tra registri, compositori e performer.

Atsuya Kobayashi, Reo Anzai, Nao Tokui2026-03-10⚡ eess

Relationship between objective and subjective perceptual measures of speech in individuals with head and neck cancer

Questo studio dimostra che, nei pazienti con tumori testa-collo, le misure soggettive di intelligibilità, articolazione e qualità vocale sono strettamente correlate e che una singola misura di intelligibilità potrebbe essere sufficiente per il monitoraggio clinico, in quanto le valutazioni soggettive corrispondono bene alle misure acustiche oggettive.

Bence Mark Halpern, Thomas Tienkamp, Teja Rebernik + 4 more2026-03-10⚡ eess

A Large-Scale Probing Analysis of Speaker-Specific Attributes in Self-Supervised Speech Representations

Questo studio analizza su larga scala come 11 modelli di apprendimento auto-supervisionato del parlato codifichino gli attributi specifici del parlante, rivelando una gerarchia in cui gli strati iniziali catturano l'acustica fondamentale, quelli intermedi la prosodia dinamica e, controintuitivamente, gli strati finali dei modelli più grandi recuperano l'identità del parlante, sfidando il consenso secondo cui questi ultimi contengono esclusivamente contenuti linguistici astratti.

Aemon Yat Fei Chiu, Kei Ching Fung, Roger Tsz Yeung Li + 2 more2026-03-06💻 cs

TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

Il paper propone TSPC, un'architettura a due stadi incentrata sui fonemi che utilizza un set fonemico vietnamita esteso come rappresentazione intermedia per migliorare il riconoscimento del parlato code-switching vietnamita-inglese, ottenendo risultati superiori rispetto alle basi esistenti con una riduzione delle risorse computazionali necessarie.

Tran Nguyen Anh, Truong Dinh Dung, Vo Van Nam + 1 more2026-03-06💻 cs

BabyHuBERT: Multilingual Self-Supervised Learning for Segmenting Speakers in Child-Centered Long-Form Recordings

Il paper presenta BabyHuBERT, un modello di apprendimento auto-supervisionato multilingue addestrato su 13.000 ore di registrazioni infantili che supera le prestazioni dei modelli esistenti nel distinguere i bambini dagli adulti in registrazioni lunghe e naturali, offrendo risorse preziose per lo studio dello sviluppo linguistico in oltre 40 lingue.

Théo Charlot, Tarek Kunze, Maxime Poli + 3 more2026-03-06💻 cs

SAM: A Mamba-2 State-Space Audio-Language Model

Il paper presenta SAM, un modello audio-linguistico basato su Mamba-2 che, grazie a un'ottimizzazione dell'encoder audio e all'addestramento con istruzioni, supera le prestazioni di modelli transformer più grandi con meno parametri, stabilendo nuovi principi di progettazione per le architetture a spazio di stato.

Taehan Lee, Jaehan Jung, Hyukjun Lee2026-03-06💻 cs

Conversational Speech Reveals Structural Robustness Failures in SpeechLLM Backbones

Lo studio rivela che i modelli linguistici alla base dei sistemi SpeechLLM mostrano fragilità strutturali nell'elaborazione del discorso conversazionale, tendendo a sovracancellare contenuti fluenti a favore dell'astrazione semantica e dimostrando che la robustezza è plasmata da specifici obiettivi di addestramento piuttosto che dalla semplice scalabilità o dal fine-tuning.

Maria Teleki, Sai Janjur, Haoran Liu + 11 more2026-03-06💻 cs

Noise-to-Notes: Diffusion-based Generation and Refinement for Automatic Drum Transcription

Il paper introduce Noise-to-Notes (N2N), un nuovo framework basato su modelli di diffusione che riformula la trascrizione automatica della batteria come un compito generativo, ottenendo prestazioni state-of-the-art grazie all'uso di una nuova funzione di perdita e all'integrazione di feature semantiche da modelli musicali fondamentali.

Michael Yeung, Keisuke Toyama, Toya Teramoto + 2 more2026-03-06💻 cs

Schrödinger Bridge Mamba for One-Step Speech Enhancement

Il paper presenta Schrödinger Bridge Mamba (SBM), un modello innovativo che combina il paradigma di addestramento Schrödinger Bridge con l'architettura Mamba per ottenere un potenziamento della voce di alta qualità in un solo passo di inferenza, superando i metodi esistenti nel denoising e nella dereverberazione.

Jing Yang, Sirui Wang, Chao Wu + 2 more2026-03-06💻 cs

Multi-Loss Learning for Speech Emotion Recognition with Energy-Adaptive Mixup and Frame-Level Attention

Il paper propone un framework di apprendimento multi-perdita per il riconoscimento delle emozioni nel parlato che integra un metodo di mixup adattivo all'energia e un modulo di attenzione a livello di frame, ottenendo prestazioni all'avanguardia su quattro dataset principali.

Cong Wang, Yizhong Geng, Yuhua Wen + 7 more2026-03-06💻 cs

← Precedente Successivo →