cs.SD papers | Gist.Science

When Fine-Tuning Fails and when it Generalises: Role of Data Diversity and Mixed Training in LLM-based TTS

Dit onderzoek toont aan dat LoRA-finetuning van een compact LLM (Qwen-0.5B) voor tekst-naar-spraak, mits ondersteund door diverse trainingsdata, aanzienlijke verbeteringen oplevert in perceptuele kwaliteit, sprekerstrouw en signaalruisverhouding vergeleken met een bevroren basismodel.

Anupam Purwar, Aditya ChoudharyThu, 12 Ma🤖 cs.AI

Training-Free Multi-Step Inference for Target Speaker Extraction

Deze paper introduceert een trainingsvrije multi-stap inferentiemethode voor doel-sprekerextractie die een bevroren voorgeïmplementeerd model iteratief verfijnt via interpolatie en selectie, waarbij een gezamenlijke optimalisatie van niet-intrusieve metrieken wordt voorgesteld om de prestaties te balanceren zonder grondwaarheid.

Zhenghai You, Ying Shi, Lantian Li, Dong WangThu, 12 Ma💻 cs

V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

Het artikel introduceert V2M-Zero, een methode die video naar tijd-gealigneerde muziek vertaalt zonder gekoppelde trainingsdata, door gebruik te maken van binnen-modale gebeurteniskrommen om de gedeelde temporele structuur tussen video en muziek te benutten.

Yan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. BryanThu, 12 Ma🤖 cs.AI

Efficient Emotion and Speaker Adaptation in LLM-Based TTS via Characteristic-Specific Partial Fine-Tuning

Dit artikel introduceert CSP-FT, een efficiënte strategie voor gedeeltelijke fijne afstemming die door selectief slechts twee specifieke lagen van een LLM-gebaseerd TTS-model aan te passen, de spraakherkenning en emotionele expressie verbetert terwijl het trainingsproces twee keer sneller verloopt en het risico op catastrofaal vergeten aanzienlijk wordt verminderd.

Tianrui Wang, Meng Ge, Cheng Gong, Chunyu Qiang, Haoyu Wang, Zikang Huang, Yu Jiang, Ye Ni, Yuheng Lu, Xiaobao Wang, Engsiong Chng, Xie Chen, Longbiao Wang, Jianwu DangMon, 09 Ma💻 cs

HVAC-EAR: Eavesdropping Human Speech Using HVAC Systems

Dit paper introduceert HVAC-EAR, een systeem dat intelligibele spraak kan reconstrueren uit ruisende drukdata van HVAC-systemen door een complex-waardige conformer te gebruiken, waardoor voor het eerst privacyrisico's oplopen tot 1,2 meter afstand worden aangetoond.

Tarikul Islam Tamiti, Biraj Joshi, Rida Hasan, Anomadarshi BaruaMon, 09 Ma💻 cs

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

Dit paper introduceert een end-to-end framework voor audio-visuele spraakherkenning dat ruisbestendigheid bereikt door spraakverbetering en een Conformer-gebaseerde fusie te gebruiken zonder expliciete maskers, waardoor semantische informatie beter behouden blijft dan bij eerdere methoden.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei YinMon, 09 Ma🤖 cs.AI

LMU-Based Sequential Learning and Posterior Ensemble Fusion for Cross-Domain Infant Cry Classification

Dit paper presenteert een compact acoustisch kader dat MFCC-, STFT- en pitch-kenmerken combineert met een verbeterde Legendre Memory Unit (LMU) en een geposte ensemble-fusie om de cross-domein classificatie van babyhuilen te verbeteren, wat leidt tot betere generalisatie en efficiëntie voor draagbare gezondheidsmonitoring.

Niloofar Jazaeri, Hilmi R. Dajani, Marco Janeczek, Martin BouchardMon, 09 Ma🤖 cs.LG

Whisper-RIR-Mega: A Paired Clean-Reverberant Speech Benchmark for ASR Robustness to Room Acoustics

Dit paper introduceert Whisper-RIR-Mega, een nieuw benchmarkdataset met gekoppelde schone en reverberante spraak om de robuustheid van Whisper-spraakherkenningsmodellen tegen ruimteakoestiek te evalueren en vast te stellen dat reverberatie de prestaties consistent verslechtert.

Mandip GoswamiMon, 09 Ma🤖 cs.AI

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

Het paper introduceert Omni-C, een efficiënte, dichte Transformer-encoder die heterogene modaliteiten comprimeert tot gedeelde representaties zonder MoE-architecturen, waardoor de complexiteit en het geheugengebruik aanzienlijk worden verminderd terwijl de prestaties vergelijkbaar blijven met gespecialiseerde expertmodellen.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de GusmãoMon, 09 Ma🤖 cs.AI

Koopman Regularized Deep Speech Disentanglement for Speaker Verification

Dit artikel introduceert de Deep Koopman Speech Disentanglement Autoencoder (DKSD-AE), een efficiënt en schaalbaar model dat zonder tekstuele supervisie of grote vooraf getrainde netwerken spreker- en inhoudsdynamica ontrafelt voor robuuste sprekerverificatie.

Nikos Chazaridis, Mohammad Belal, Rafael Mestre, Timothy J. Norman, Christine EversMon, 09 Ma🤖 cs.LG

Which Data Matter? Embedding-Based Data Selection for Speech Recognition

Dit artikel presenteert een embedding-gebaseerde methode voor het selecteren van relevante spraakdata uit een grote, heterogene dataset, waarmee specialistische ASR-modellen op specifieke domeinen tot 36,8% relatieve verbetering in woordfoutpercentage behalen door slechts 5% van de data te gebruiken.

Zakaria Aldeneh, Skyler Seto, Maureen de Seyssel, Jie Chi, Zijin Gu, Takuya Higuchi, Jee-weon Jung, Shinji Watanabe, David Grangier, Barry-John Theobald, Tatiana LikhomanenkoMon, 09 Ma💻 cs

How Well Do Current Speech Deepfake Detection Methods Generalize to the Real World?

Dit paper introduceert het meertalige ML-ITW-dataset om te demonstreren dat bestaande methoden voor het detecteren van spraakdeepfakes in de praktijk aanzienlijk minder goed presteren door diverse talen en compressie-effecten.

Daixian Li, Jun Xue, Yanzhen Ren, Zhuolin Yi, Yihuan Huang, Guanxiang Feng, Yi ChaiMon, 09 Ma💻 cs

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

Dit paper introduceert TempoSyncDiff, een lichtgewicht latent diffusion-framework dat via kennisdistillatie en tijdsregulatie realistische, stabiele en spraakgestuurde praatkop-generatie mogelijk maakt met een zeer lage latentie, zelfs op randapparatuur.

Soumya Mazumdar, Vineet Kumar RakeshMon, 09 Ma🤖 cs.AI

Do Compact SSL Backbones Matter for Audio Deepfake Detection? A Controlled Study with RAPTOR

Deze studie introduceert RAPTOR en toont aan dat voor audio-deepfake-detectie de pre-trainingsroute van compacte SSL-modellen (zoals multilinguaal HuBERT) belangrijker is dan modelgrootte, aangezien deze betere cross-domein-robustheid en betrouwbaardere kalibratie bieden dan grotere systemen.

Ajinkya Kulkarni, Sandipana Dowerah, Atharva Kulkarni, Tanel Alumäe, Mathew Magimai DossMon, 09 Ma🤖 cs.AI

Whisper-CD: Accurate Long-Form Speech Recognition using Multi-Negative Contrastive Decoding

Dit paper introduceert Whisper-CD, een trainingsvrij contrastief decoderingsframework dat hallucinaties en herhalingslussen in lange spraaktranscripties effectief reduceert door logit-vergelijkingen met meervoudige negatieve perturbaties toe te passen tijdens de inferentie.

Hoseong Ahn, Jeongyun Chae, Yoonji Park, Kyuhong ShimMon, 09 Ma🤖 cs.AI

Continual Adaptation for Pacific Indigenous Speech Recognition

Deze studie toont aan dat hoewel spraakmodellen met Low-Rank Adaptation (LoRA) aanvankelijk goed kunnen worden aangepast aan Pacific Indigenous-talen, ze worstelen met catastrofale vergeetachtigheid bij sequentieel leren, wat de noodzaak benadrukt van robuuste strategieën om het plasticiteit-stabiliteitsdilemma op te lossen.

Yang Xiao, Aso Mahmudi, Nick Thieberger, Eliathamby Ambikairajah, Eun-Jung Holden, Ting DangMon, 09 Ma💬 cs.CL

Prosodic Boundary-Aware Streaming Generation for LLM-Based TTS with Streaming Text Input

Deze paper introduceert een post-trainingstrategie die LLM-gebaseerde TTS-modellen in staat stelt om natuurlijk klinkende spraak te genereren op basis van streaming tekst, door prosodische grenzen te benutten voor vroegtijdige stopzetting en een gleedschijfprompt voor een gebonden context, wat leidt tot aanzienlijk verbeterde woordfoutpercentages en stemgelijkheid in vergelijking met bestaande methoden.

Changsong Liu, Tianrui Wang, Ye Ni, Yizhou Peng, Eng Siong ChngMon, 09 Ma🤖 cs.AI

RAMoEA-QA: Hierarchical Specialization for Robust Respiratory Audio Question Answering

Het paper introduceert RAMoEA-QA, een hiërarchisch gespecialiseerd generatief model dat via een twee-staps 'Mixture-of-Experts'-routing zowel audio-encodering als taalgeneratie aanpast aan diverse longgerelateerde opnames en vraagtypes, waardoor het aanzienlijk betere prestaties en generalisatie bereikt dan bestaande systemen.

Gaia A. Bertolino, Yuwei Zhang, Tong Xia, Domenico Talia, Cecilia MascoloMon, 09 Ma🤖 cs.AI

Audio-Language Models for Audio-Centric Tasks: A Systematic Survey

Deze paper biedt het eerste systematische overzicht van Audio-Taalmodellen (ALM's) die op gekoppelde audio-tekstdata zijn getraind, en presenteert een uitgebreide taxonomie, een analyse van de onderzoekslandschap en een overzicht van de huidige ontwikkelingen, beperkingen en toekomstperspectieven voor toepassingen in spraak, muziek en geluid.

Yi Su, Jisheng Bai, Qisheng Xu, Kele Xu, Yong DouFri, 13 Ma⚡ eess

Text-only adaptation in LLM-based ASR through text denoising

Deze paper introduceert een lichtgewicht methode voor tekst-only adaptatie van LLM-gebaseerde spraakherkenningssystemen die het probleem omzet in een tekstontstoorningsopdracht, waardoor de modelprestaties op nieuwe domeinen aanzienlijk verbeteren zonder de cruciale kruismodaal uitlijning te verstoren.

Andrés Carofilis, Sergio Burdisso, Esaú Villatoro-Tello, Shashi Kumar, Kadri Hacioglu, Srikanth Madikeri, Pradeep Rangappa, Manjunath K E, Petr Motlicek, Shankar Venkatesan, Andreas StolckeFri, 13 Ma⚡ eess

← Vorige Volgende →