[b]=[d]-[t]+[p]: Self-supervised Speech Models Discover Phonological Vector Arithmetic

Questo studio dimostra che i modelli di linguaggio auto-supervisionati per l'elaborazione del parlato codificano le informazioni fonologiche attraverso vettori composizionali e interpretabili, permettendo operazioni aritmetiche vettoriali che riflettono le caratteristiche fonetiche e la loro realizzazione acustica in modo continuo.

Kwanghee Choi, Eunjung Yeo, Cheol Jun Cho, David Harwath, David R. MortensenFri, 13 Ma⚡ eess

V2A-DPO: Omni-Preference Optimization for Video-to-Audio Generation

Il paper presenta V2A-DPO, un innovativo framework di ottimizzazione diretta delle preferenze progettato per allineare i modelli di generazione audio da video basati su flussi alle preferenze umane attraverso un sistema di valutazione AudioScore, una pipeline automatizzata per la creazione di dati e una strategia di apprendimento curricolare, ottenendo prestazioni superiori rispetto agli approcci esistenti.

Nolan Chan, Timmy Gang, Yongqian Wang, Yuzhe Liang, Dingdong WangFri, 13 Ma⚡ eess

Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition

Questo articolo propone un framework basato su Transformer per il riconoscimento delle emozioni audio-visive che risolve il problema del disallineamento temporale tra le modalità utilizzando un encoder di auto-attenzione multimodale, incorporando Posizioni Rotatorie Temporali Allineate (TaRoPE) e una funzione di perdita di Corrispondenza Temporale Incrociata (CTM) per migliorare la fusione delle caratteristiche.

Inyong Koo, yeeun Seong, Minseok Son, Jaehyuk Jang, Changick KimFri, 13 Ma⚡ eess

Uni-ASR: Unified LLM-Based Architecture for Non-Streaming and Streaming Automatic Speech Recognition

Il paper presenta Uni-ASR, un framework unificato basato su LLM che integra capacità di riconoscimento vocale sia non in streaming che in streaming attraverso un paradigma di addestramento congiunto e strategie di decodifica avanzate, permettendo transizioni fluide tra le due modalità senza modifiche architetturali e mantenendo bassa latenza.

Yinfeng Xia, Jian Tang, Junfeng Hou, Gaopeng Xu, Haitao YaoFri, 13 Ma💬 cs.CL

Can LLMs Help Localize Fake Words in Partially Fake Speech?

Questo studio indaga se un modello linguistico addestrato su testo possa localizzare parole contraffatte in discorsi parzialmente manipolati, rivelando che, sebbene efficace nel riconoscere specifici stili di editing nei dati di addestramento, il modello fatica a generalizzare verso stili di modifica non visti in precedenza.

Lin Zhang, Thomas Thebaud, Zexin Cai, Sanjeev Khudanpur, Daniel Povey, Leibny Paola García-Perera, Matthew Wiesner, Nicholas AndrewsFri, 13 Ma⚡ eess

Cough activity detection for automatic tuberculosis screening

Lo studio dimostra che l'utilizzo di un modello pre-addestrato XLS-R, ottimizzato con solo i primi tre livelli per ridurre i requisiti computazionali, permette di rilevare con alta precisione le attività di tosse in registrazioni audio per lo screening automatico della tubercolosi, superando le prestazioni di modelli alternativi e rendendo fattibile l'integrazione in applicazioni per smartphone.

Joshua Jansen van Vüren, Devendra Singh Parihar, Daphne Naidoo, Kimsey Zajac, Willy Ssengooba, Grant Theron, Thomas NieslerFri, 13 Ma⚡ eess

Continued Pretraining for Low-Resource Swahili ASR: Achieving State-of-the-Art Performance with Minimal Labeled Data

Questo studio dimostra che l'adattamento tramite pre-addestramento continuo di wav2vec2-bert-2.0 su dati non etichettati e un limitato set di 20.000 campioni etichettati consente di raggiungere prestazioni all'avanguardia nel riconoscimento automatico del parlato in swahili, riducendo l'errore di 3,24% e superando di gran lunga i sistemi precedenti.

Hillary Mutisya, John MuganeFri, 13 Ma⚡ eess

AnimeScore: A Preference-Based Dataset and Framework for Evaluating Anime-Like Speech Style

Il paper presenta AnimeScore, un framework basato su preferenze e un dataset di 15.000 giudizi a coppie che superano i limiti delle valutazioni soggettive tradizionali per fornire una metrica oggettiva e automatizzata dell'animosità vocale, rivelando che tale caratteristica è guidata da fattori acustici complessi come la modellazione della risonanza e la continuità prosodica piuttosto che dal semplice tono alto.

Joonyong Park, Jerry LiFri, 13 Ma⚡ eess

SEMamba++: A General Speech Restoration Framework Leveraging Global, Local, and Periodic Spectral Patterns

Il paper presenta SEMamba++, un nuovo framework generale per il ripristino del parlato che integra bias induttivi specifici per il linguaggio, tra cui un blocco di estrazione delle frequenze (Frequency GLP) e un blocco di elaborazione duale tempo-frequenza multi-risoluzione, ottenendo prestazioni superiori rispetto ai modelli esistenti mantenendo un'efficienza computazionale.

Yongjoon Lee, Jung-Woo ChoiFri, 13 Ma⚡ eess

Causal Prosody Mediation for Text-to-Speech:Counterfactual Training of Duration, Pitch, and Energy in FastSpeech2

Il paper propone un nuovo framework di mediazione causale per la sintesi vocale che, integrando un modello strutturale causale e obiettivi di addestramento controfattuale nell'architettura FastSpeech2, disaccoppia efficacemente l'espressività emotiva dal contenuto linguistico per ottenere una manipolazione del prosodia più controllabile e naturale.

Suvendu Sekhar MohantyFri, 13 Ma🤖 cs.AI

Affect Decoding in Phonated and Silent Speech Production from Surface EMG

Questo studio introduce un nuovo dataset e dimostra che l'analisi dell'attività muscolare facciale tramite elettromiografia di superficie (sEMG) permette di decodificare con affidabilità stati emotivi come la frustrazione, generalizzando efficacemente sia nel parlato fonato che in quello silenzioso.

Simon Pistrosch, Kleanthis Avramidis, Tiantian Feng, Jihwan Lee, Monica Gonzalez-Machorro, Shrikanth Narayanan, Björn W. SchullerFri, 13 Ma⚡ eess

Resurfacing Paralinguistic Awareness in Large Audio Language Models

Questo lavoro introduce un protocollo di fine-tuning potenziato (PE-FT) che, attraverso analisi strato per strato e tecniche mirate, risveglia la consapevolezza paralinguistica nei Modelli Linguistici Audio di grandi dimensioni, permettendo loro di cogliere e rispondere efficacemente ai segnali contestuali impliciti oltre al semplice contenuto testuale.

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition

Il paper presenta Dr. SHAP-AV, un framework che utilizza i valori di Shapley per analizzare il contributo delle modalità audio e visivo nella riconoscimento della parola audio-visivo, rivelando come i modelli mantengano un pregiudizio verso l'audio anche in condizioni di rumore e come l'equilibrio modale sia influenzato principalmente dal rapporto segnale-rumore.

Umberto Cappellazzo, Stavros Petridis, Maja PanticFri, 13 Ma⚡ eess