Efficient Emotion and Speaker Adaptation in LLM-Based TTS via Characteristic-Specific Partial Fine-Tuning

Dit artikel introduceert CSP-FT, een efficiënte strategie voor gedeeltelijke fijne afstemming die door selectief slechts twee specifieke lagen van een LLM-gebaseerd TTS-model aan te passen, de spraakherkenning en emotionele expressie verbetert terwijl het trainingsproces twee keer sneller verloopt en het risico op catastrofaal vergeten aanzienlijk wordt verminderd.

Tianrui Wang, Meng Ge, Cheng Gong, Chunyu Qiang, Haoyu Wang, Zikang Huang, Yu Jiang, Ye Ni, Yuheng Lu, Xiaobao Wang, Engsiong Chng, Xie Chen, Longbiao Wang, Jianwu DangMon, 09 Ma💻 cs

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

Dit paper introduceert een end-to-end framework voor audio-visuele spraakherkenning dat ruisbestendigheid bereikt door spraakverbetering en een Conformer-gebaseerde fusie te gebruiken zonder expliciete maskers, waardoor semantische informatie beter behouden blijft dan bij eerdere methoden.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei YinMon, 09 Ma🤖 cs.AI

LMU-Based Sequential Learning and Posterior Ensemble Fusion for Cross-Domain Infant Cry Classification

Dit paper presenteert een compact acoustisch kader dat MFCC-, STFT- en pitch-kenmerken combineert met een verbeterde Legendre Memory Unit (LMU) en een geposte ensemble-fusie om de cross-domein classificatie van babyhuilen te verbeteren, wat leidt tot betere generalisatie en efficiëntie voor draagbare gezondheidsmonitoring.

Niloofar Jazaeri, Hilmi R. Dajani, Marco Janeczek, Martin BouchardMon, 09 Ma🤖 cs.LG

Which Data Matter? Embedding-Based Data Selection for Speech Recognition

Dit artikel presenteert een embedding-gebaseerde methode voor het selecteren van relevante spraakdata uit een grote, heterogene dataset, waarmee specialistische ASR-modellen op specifieke domeinen tot 36,8% relatieve verbetering in woordfoutpercentage behalen door slechts 5% van de data te gebruiken.

Zakaria Aldeneh, Skyler Seto, Maureen de Seyssel, Jie Chi, Zijin Gu, Takuya Higuchi, Jee-weon Jung, Shinji Watanabe, David Grangier, Barry-John Theobald, Tatiana LikhomanenkoMon, 09 Ma💻 cs

Continual Adaptation for Pacific Indigenous Speech Recognition

Deze studie toont aan dat hoewel spraakmodellen met Low-Rank Adaptation (LoRA) aanvankelijk goed kunnen worden aangepast aan Pacific Indigenous-talen, ze worstelen met catastrofale vergeetachtigheid bij sequentieel leren, wat de noodzaak benadrukt van robuuste strategieën om het plasticiteit-stabiliteitsdilemma op te lossen.

Yang Xiao, Aso Mahmudi, Nick Thieberger, Eliathamby Ambikairajah, Eun-Jung Holden, Ting DangMon, 09 Ma💬 cs.CL

Prosodic Boundary-Aware Streaming Generation for LLM-Based TTS with Streaming Text Input

Deze paper introduceert een post-trainingstrategie die LLM-gebaseerde TTS-modellen in staat stelt om natuurlijk klinkende spraak te genereren op basis van streaming tekst, door prosodische grenzen te benutten voor vroegtijdige stopzetting en een gleedschijfprompt voor een gebonden context, wat leidt tot aanzienlijk verbeterde woordfoutpercentages en stemgelijkheid in vergelijking met bestaande methoden.

Changsong Liu, Tianrui Wang, Ye Ni, Yizhou Peng, Eng Siong ChngMon, 09 Ma🤖 cs.AI

RAMoEA-QA: Hierarchical Specialization for Robust Respiratory Audio Question Answering

Het paper introduceert RAMoEA-QA, een hiërarchisch gespecialiseerd generatief model dat via een twee-staps 'Mixture-of-Experts'-routing zowel audio-encodering als taalgeneratie aanpast aan diverse longgerelateerde opnames en vraagtypes, waardoor het aanzienlijk betere prestaties en generalisatie bereikt dan bestaande systemen.

Gaia A. Bertolino, Yuwei Zhang, Tong Xia, Domenico Talia, Cecilia MascoloMon, 09 Ma🤖 cs.AI

Text-only adaptation in LLM-based ASR through text denoising

Deze paper introduceert een lichtgewicht methode voor tekst-only adaptatie van LLM-gebaseerde spraakherkenningssystemen die het probleem omzet in een tekstontstoorningsopdracht, waardoor de modelprestaties op nieuwe domeinen aanzienlijk verbeteren zonder de cruciale kruismodaal uitlijning te verstoren.

Andrés Carofilis, Sergio Burdisso, Esaú Villatoro-Tello, Shashi Kumar, Kadri Hacioglu, Srikanth Madikeri, Pradeep Rangappa, Manjunath K E, Petr Motlicek, Shankar Venkatesan, Andreas StolckeFri, 13 Ma⚡ eess