cs.SD articoli | Gist.Science

When Fine-Tuning Fails and when it Generalises: Role of Data Diversity and Mixed Training in LLM-based TTS

Lo studio dimostra che il fine-tuning LoRA del backbone LLM Qwen-0.5B, se supportato da dati di addestramento sufficientemente diversificati, migliora significativamente la coerenza vocale, la fedeltà del parlante e il rapporto segnale-rumore nei sistemi TTS rispetto ai modelli congelati.

Anupam Purwar, Aditya ChoudharyThu, 12 Ma🤖 cs.AI

Training-Free Multi-Step Inference for Target Speaker Extraction

Il paper propone un metodo di inferenza multi-step privo di addestramento per l'estrazione della voce del parlante target, che affina iterativamente la stima utilizzando un modello preaddestrato congelato e ottimizzando metriche intrusive o non intrusive per bilanciare le prestazioni in scenari pratici.

Zhenghai You, Ying Shi, Lantian Li, Dong WangThu, 12 Ma💻 cs

V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

Il paper presenta V2M-Zero, un approccio di generazione zero-shot che allinea temporalmente la musica al video sfruttando le curve di eventi temporali calcolate indipendentemente per ciascuna modalità, ottenendo risultati superiori rispetto ai metodi basati su dati accoppiati senza richiedere training incrociato.

Yan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. BryanThu, 12 Ma🤖 cs.AI

Efficient Emotion and Speaker Adaptation in LLM-Based TTS via Characteristic-Specific Partial Fine-Tuning

Il paper propone CSP-FT, una strategia di parziale fine-tuning specifico per le caratteristiche che, aggiornando solo circa l'8% dei parametri, migliora l'adattamento a emozioni e voci non viste nei modelli TTS basati su LLM, riducendo i tempi di addestramento e mitigando l'oblio catastrofico senza compromettere fedeltà e intelligibilità.

Tianrui Wang, Meng Ge, Cheng Gong, Chunyu Qiang, Haoyu Wang, Zikang Huang, Yu Jiang, Ye Ni, Yuheng Lu, Xiaobao Wang, Engsiong Chng, Xie Chen, Longbiao Wang, Jianwu DangMon, 09 Ma💻 cs

HVAC-EAR: Eavesdropping Human Speech Using HVAC Systems

Il paper introduce HVAC-EAR, un sistema che ricostruisce la voce umana intelligibile dai dati di pressione dei sistemi HVAC, sfruttando un modello complesso per superare le limitazioni del rumore e della bassa frequenza di campionamento e rivelando nuove preoccupazioni per la privacy fino a 1,2 metri di distanza.

Tarikul Islam Tamiti, Biraj Joshi, Rida Hasan, Anomadarshi BaruaMon, 09 Ma💻 cs

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

Il paper propone un nuovo framework end-to-end per il riconoscimento visivo-uditivo del parlato che, eliminando la necessità di maschere esplicita per la rimozione del rumore, utilizza un modulo di fusione basato su Conformer per migliorare implicitamente le caratteristiche audio tramite quelle video, ottenendo prestazioni superiori rispetto ai metodi esistenti in condizioni rumorose.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei YinMon, 09 Ma🤖 cs.AI

LMU-Based Sequential Learning and Posterior Ensemble Fusion for Cross-Domain Infant Cry Classification

Questo articolo propone un framework acustico compatto che combina un codificatore CNN multi-ramo con un'unità di memoria Legendre (LMU) e una fusione di ensemble calibrata per migliorare la classificazione cross-dominio dei pianti infantili, affrontando le sfide legate alla non stazionarietà dei segnali, alla scarsità di annotazioni e ai forti spostamenti di dominio.

Niloofar Jazaeri, Hilmi R. Dajani, Marco Janeczek, Martin BouchardMon, 09 Ma🤖 cs.LG

Whisper-RIR-Mega: A Paired Clean-Reverberant Speech Benchmark for ASR Robustness to Room Acoustics

Il paper introduce Whisper-RIR-Mega, un nuovo benchmark di dati accoppiati (puliti e riverberati) basato su LibriSpeech e RIR-Mega per valutare la robustezza dei modelli ASR Whisper alle acustiche degli ambienti, dimostrando come il riverbero degradi sistematicamente le prestazioni.

Mandip GoswamiMon, 09 Ma🤖 cs.AI

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

Il paper presenta Omni-C, un singolo encoder denso basato su Transformer che comprime modalità eterogenee (immagini, audio e testo) in rappresentazioni condivise tramite pre-addestramento contrastivo, eliminando la necessità di architetture Mixture-of-Experts e riducendo significativamente l'uso di memoria rispetto ai modelli multimodali tradizionali.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de GusmãoMon, 09 Ma🤖 cs.AI

Koopman Regularized Deep Speech Disentanglement for Speaker Verification

Il paper propone DKSD-AE, un autoencoder strutturato che combina l'operatore di Koopman e la normalizzazione istanza per disaccoppiare dinamicamente le caratteristiche del parlante dal contenuto linguistico, ottenendo prestazioni competitive nella verifica dell'identità vocale senza supervisione testuale e con un numero ridotto di parametri.

Nikos Chazaridis, Mohammad Belal, Rafael Mestre, Timothy J. Norman, Christine EversMon, 09 Ma🤖 cs.LG

Which Data Matter? Embedding-Based Data Selection for Speech Recognition

Questo studio dimostra che la selezione mirata di un sottogruppo di dati basato su embedding che catturano attributi del parlante, contenuto fonetico e significato semantico consente di migliorare significativamente le prestazioni dei modelli di riconoscimento vocale specialistici su domini specifici, riducendo l'errore di parole fino al 36,8% rispetto all'addestramento su dataset completi.

Zakaria Aldeneh, Skyler Seto, Maureen de Seyssel, Jie Chi, Zijin Gu, Takuya Higuchi, Jee-weon Jung, Shinji Watanabe, David Grangier, Barry-John Theobald, Tatiana LikhomanenkoMon, 09 Ma💻 cs

How Well Do Current Speech Deepfake Detection Methods Generalize to the Real World?

Il paper introduce il dataset multilingue ML-ITW per valutare la capacità di generalizzazione dei rilevatori di deepfake vocali in scenari reali, dimostrando che le attuali metodologie subiscono un significativo calo delle prestazioni a causa delle diverse lingue e delle condizioni acustiche complesse.

Daixian Li, Jun Xue, Yanzhen Ren, Zhuolin Yi, Yihuan Huang, Guanxiang Feng, Yi ChaiMon, 09 Ma💻 cs

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

Il paper introduce TempoSyncDiff, un framework di diffusione latente basato su distillazione che genera volti parlanti guidati dall'audio con alta fedeltà temporale e bassa latenza, rendendo possibile il loro utilizzo su dispositivi edge.

Soumya Mazumdar, Vineet Kumar RakeshMon, 09 Ma🤖 cs.AI

Do Compact SSL Backbones Matter for Audio Deepfake Detection? A Controlled Study with RAPTOR

Lo studio RAPTOR dimostra che, per la rilevazione di deepfake audio, la traiettoria di pre-addestramento multilingue di modelli SSL compatti come HuBERT è più determinante della scala del modello per garantire robustezza cross-dominio e una corretta calibrazione dell'incertezza.

Ajinkya Kulkarni, Sandipana Dowerah, Atharva Kulkarni, Tanel Alumäe, Mathew Magimai DossMon, 09 Ma🤖 cs.AI

Whisper-CD: Accurate Long-Form Speech Recognition using Multi-Negative Contrastive Decoding

Il paper presenta Whisper-CD, un framework di decoding contrastivo senza addestramento che riduce significativamente le allucinazioni e aumenta l'efficienza nel riconoscimento vocale a lungo termine confrontando i logit dell'audio pulito con quelli generati da perturbazioni acustiche negative.

Hoseong Ahn, Jeongyun Chae, Yoonji Park, Kyuhong ShimMon, 09 Ma🤖 cs.AI

Continual Adaptation for Pacific Indigenous Speech Recognition

Questo studio empirico evidenzia le sfide dell'adattamento dei modelli di riconoscimento vocale alle lingue indigene del Pacifico a risorse limitate, dimostrando come le strategie attuali come il LoRA affrontino il dilemma tra plasticità e stabilità e portino a una grave dimenticanza catastrofica durante l'apprendimento continuo.

Yang Xiao, Aso Mahmudi, Nick Thieberger, Eliathamby Ambikairajah, Eun-Jung Holden, Ting DangMon, 09 Ma💬 cs.CL

Prosodic Boundary-Aware Streaming Generation for LLM-Based TTS with Streaming Text Input

Il paper propone una strategia di post-addestramento basata su confini prosodici per modelli TTS LLM, che risolve le sfide della generazione in streaming con input testuale incrementale prevenendo il crollo del contesto e migliorando significativamente la qualità dell'audio e la precisione lessicale.

Changsong Liu, Tianrui Wang, Ye Ni, Yizhou Peng, Eng Siong ChngMon, 09 Ma🤖 cs.AI

RAMoEA-QA: Hierarchical Specialization for Robust Respiratory Audio Question Answering

Il paper presenta RAMoEA-QA, un modello generativo gerarchico che utilizza un meccanismo di routing a due stadi per specializzare dinamicamente l'elaborazione audio e la generazione linguistica, ottenendo prestazioni superiori e una maggiore robustezza nella risposta a domande su registrazioni respiratorie rispetto ai metodi esistenti.

Gaia A. Bertolino, Yuwei Zhang, Tong Xia, Domenico Talia, Cecilia MascoloMon, 09 Ma🤖 cs.AI

Audio-Language Models for Audio-Centric Tasks: A Systematic Survey

Questo articolo presenta la prima revisione sistematica dei Modelli Audio-Linguistici, offrendo una panoramica completa, una tassonomia unificata e un'analisi del panorama di ricerca per guidare lo sviluppo futuro e le applicazioni pratiche in ambito audio.

Yi Su, Jisheng Bai, Qisheng Xu, Kele Xu, Yong DouFri, 13 Ma⚡ eess

Text-only adaptation in LLM-based ASR through text denoising

Il paper presenta un metodo di adattamento testuale leggero per i sistemi ASR basati su LLM, che tratta l'adattamento come un'attività di denoising del testo per migliorare le prestazioni nei nuovi domini preservando l'allineamento multimodale senza richiedere modifiche architetturali.

Andrés Carofilis, Sergio Burdisso, Esaú Villatoro-Tello, Shashi Kumar, Kadri Hacioglu, Srikanth Madikeri, Pradeep Rangappa, Manjunath K E, Petr Motlicek, Shankar Venkatesan, Andreas StolckeFri, 13 Ma⚡ eess

← Precedente Successivo →