Efficient Emotion and Speaker Adaptation in LLM-Based TTS via Characteristic-Specific Partial Fine-Tuning

Il paper propone CSP-FT, una strategia di parziale fine-tuning specifico per le caratteristiche che, aggiornando solo circa l'8% dei parametri, migliora l'adattamento a emozioni e voci non viste nei modelli TTS basati su LLM, riducendo i tempi di addestramento e mitigando l'oblio catastrofico senza compromettere fedeltà e intelligibilità.

Tianrui Wang, Meng Ge, Cheng Gong, Chunyu Qiang, Haoyu Wang, Zikang Huang, Yu Jiang, Ye Ni, Yuheng Lu, Xiaobao Wang, Engsiong Chng, Xie Chen, Longbiao Wang, Jianwu DangMon, 09 Ma💻 cs

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

Il paper propone un nuovo framework end-to-end per il riconoscimento visivo-uditivo del parlato che, eliminando la necessità di maschere esplicita per la rimozione del rumore, utilizza un modulo di fusione basato su Conformer per migliorare implicitamente le caratteristiche audio tramite quelle video, ottenendo prestazioni superiori rispetto ai metodi esistenti in condizioni rumorose.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei YinMon, 09 Ma🤖 cs.AI

LMU-Based Sequential Learning and Posterior Ensemble Fusion for Cross-Domain Infant Cry Classification

Questo articolo propone un framework acustico compatto che combina un codificatore CNN multi-ramo con un'unità di memoria Legendre (LMU) e una fusione di ensemble calibrata per migliorare la classificazione cross-dominio dei pianti infantili, affrontando le sfide legate alla non stazionarietà dei segnali, alla scarsità di annotazioni e ai forti spostamenti di dominio.

Niloofar Jazaeri, Hilmi R. Dajani, Marco Janeczek, Martin BouchardMon, 09 Ma🤖 cs.LG

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

Il paper presenta Omni-C, un singolo encoder denso basato su Transformer che comprime modalità eterogenee (immagini, audio e testo) in rappresentazioni condivise tramite pre-addestramento contrastivo, eliminando la necessità di architetture Mixture-of-Experts e riducendo significativamente l'uso di memoria rispetto ai modelli multimodali tradizionali.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de GusmãoMon, 09 Ma🤖 cs.AI

Koopman Regularized Deep Speech Disentanglement for Speaker Verification

Il paper propone DKSD-AE, un autoencoder strutturato che combina l'operatore di Koopman e la normalizzazione istanza per disaccoppiare dinamicamente le caratteristiche del parlante dal contenuto linguistico, ottenendo prestazioni competitive nella verifica dell'identità vocale senza supervisione testuale e con un numero ridotto di parametri.

Nikos Chazaridis, Mohammad Belal, Rafael Mestre, Timothy J. Norman, Christine EversMon, 09 Ma🤖 cs.LG

Which Data Matter? Embedding-Based Data Selection for Speech Recognition

Questo studio dimostra che la selezione mirata di un sottogruppo di dati basato su embedding che catturano attributi del parlante, contenuto fonetico e significato semantico consente di migliorare significativamente le prestazioni dei modelli di riconoscimento vocale specialistici su domini specifici, riducendo l'errore di parole fino al 36,8% rispetto all'addestramento su dataset completi.

Zakaria Aldeneh, Skyler Seto, Maureen de Seyssel, Jie Chi, Zijin Gu, Takuya Higuchi, Jee-weon Jung, Shinji Watanabe, David Grangier, Barry-John Theobald, Tatiana LikhomanenkoMon, 09 Ma💻 cs

Continual Adaptation for Pacific Indigenous Speech Recognition

Questo studio empirico evidenzia le sfide dell'adattamento dei modelli di riconoscimento vocale alle lingue indigene del Pacifico a risorse limitate, dimostrando come le strategie attuali come il LoRA affrontino il dilemma tra plasticità e stabilità e portino a una grave dimenticanza catastrofica durante l'apprendimento continuo.

Yang Xiao, Aso Mahmudi, Nick Thieberger, Eliathamby Ambikairajah, Eun-Jung Holden, Ting DangMon, 09 Ma💬 cs.CL

RAMoEA-QA: Hierarchical Specialization for Robust Respiratory Audio Question Answering

Il paper presenta RAMoEA-QA, un modello generativo gerarchico che utilizza un meccanismo di routing a due stadi per specializzare dinamicamente l'elaborazione audio e la generazione linguistica, ottenendo prestazioni superiori e una maggiore robustezza nella risposta a domande su registrazioni respiratorie rispetto ai metodi esistenti.

Gaia A. Bertolino, Yuwei Zhang, Tong Xia, Domenico Talia, Cecilia MascoloMon, 09 Ma🤖 cs.AI

Text-only adaptation in LLM-based ASR through text denoising

Il paper presenta un metodo di adattamento testuale leggero per i sistemi ASR basati su LLM, che tratta l'adattamento come un'attività di denoising del testo per migliorare le prestazioni nei nuovi domini preservando l'allineamento multimodale senza richiedere modifiche architetturali.

Andrés Carofilis, Sergio Burdisso, Esaú Villatoro-Tello, Shashi Kumar, Kadri Hacioglu, Srikanth Madikeri, Pradeep Rangappa, Manjunath K E, Petr Motlicek, Shankar Venkatesan, Andreas StolckeFri, 13 Ma⚡ eess