Efficient Emotion and Speaker Adaptation in LLM-Based TTS via Characteristic-Specific Partial Fine-Tuning

Die Arbeit stellt CSP-FT vor, eine effiziente Strategie zur teilweisen Feinabstimmung von LLM-basierten TTS-Modellen, die durch die gezielte Anpassung nur zweier spezifischer Schichten die Trainingszeit halbiert, das Katastrophale Vergessen verhindert und gleichzeitig die Anpassungsfähigkeit an neue Sprecher und Emotionen verbessert.

Tianrui Wang, Meng Ge, Cheng Gong, Chunyu Qiang, Haoyu Wang, Zikang Huang, Yu Jiang, Ye Ni, Yuheng Lu, Xiaobao Wang, Engsiong Chng, Xie Chen, Longbiao Wang, Jianwu DangMon, 09 Ma💻 cs

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

Diese Arbeit stellt einen end-to-end Ansatz für die audio-visuelle Spracherkennung vor, der durch eine Conformer-basierte Fusionsarchitektur und integrierte Sprachverbesserung auf explizite Masken verzichtet, um semantisch relevante Informationen zu bewahren und die Rauschrobustheit zu steigern.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei YinMon, 09 Ma🤖 cs.AI

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

Der Paper stellt Omni-C vor, einen einzigen dichten Transformer-Encoder, der durch unimodales kontrastives Vor-Training auf großen unalignierten Daten heterogene Modalitäten wie Bilder, Audio und Text effizient in gemeinsamen Repräsentationen vereint und dabei den Bedarf an Mixture-of-Expert-Architekturen, gepaarter Überwachung oder Routing-Overhead eliminiert.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de GusmãoMon, 09 Ma🤖 cs.AI

Koopman Regularized Deep Speech Disentanglement for Speaker Verification

Die Arbeit stellt den Deep Koopman Speech Disentanglement Autoencoder (DKSD-AE) vor, ein strukturiertes Autoencoder-Modell, das durch die Kombination eines multi-stufigen Koopman-Operator-Lernmoduls mit Instanznormalisierung sprecher- und inhaltsabhängige Merkmale ohne textuelle Aufsicht effektiv trennt und dabei eine wettbewerbsfähige Sprecherüberprüfungsleistung bei deutlich weniger Parametern erzielt.

Nikos Chazaridis, Mohammad Belal, Rafael Mestre, Timothy J. Norman, Christine EversMon, 09 Ma🤖 cs.LG

Which Data Matter? Embedding-Based Data Selection for Speech Recognition

Diese Arbeit zeigt, dass die gezielte Auswahl eines 5%-Datensubsets aus 100.000 Stunden unstrukturierter Sprachdaten mittels embeddingsbasierter Repräsentation von Sprecher-, phonetischen und semantischen Merkmalen die Leistung spezialisierter Spracherkennungsmodelle auf Zielbereichen im Vergleich zum Training mit dem gesamten Datensatz um bis zu 36,8 % relative Wortfehlerrate reduziert.

Zakaria Aldeneh, Skyler Seto, Maureen de Seyssel, Jie Chi, Zijin Gu, Takuya Higuchi, Jee-weon Jung, Shinji Watanabe, David Grangier, Barry-John Theobald, Tatiana LikhomanenkoMon, 09 Ma💻 cs

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

Die Arbeit stellt TempoSyncDiff vor, einen effizienten, auf Wissenstransfer basierenden Latent-Diffusionsrahmen für audiogetriebene sprechende Köpfe, der durch Few-Step-Inferenz, Identitätsanker und zeitliche Regularisierung eine niedrige Latenz bei gleichzeitiger Verbesserung der temporalen Stabilität und Synchronisation ermöglicht.

Soumya Mazumdar, Vineet Kumar RakeshMon, 09 Ma🤖 cs.AI

Do Compact SSL Backbones Matter for Audio Deepfake Detection? A Controlled Study with RAPTOR

Die Studie RAPTOR zeigt, dass für die robuste Erkennung von Audio-Deepfakes über verschiedene Domänen hinweg die Art des SSL-Vor-Trainings (insbesondere multilinguales HuBERT) entscheidender ist als die reine Modellgröße, wobei kompakte Modelle mit 100 Millionen Parametern kommerzielle Großsysteme übertreffen und eine stabilere Kalibrierung unter Störungen aufweisen.

Ajinkya Kulkarni, Sandipana Dowerah, Atharva Kulkarni, Tanel Alumäe, Mathew Magimai DossMon, 09 Ma🤖 cs.AI

Prosodic Boundary-Aware Streaming Generation for LLM-Based TTS with Streaming Text Input

Die vorgestellte Arbeit schlägt eine prosodiebewusste Nachtrainingsstrategie für LLM-basierte Text-to-Speech-Modelle vor, die durch das Lernen eines frühen Stopps an semantischen Grenzen und die Verwendung eines gleitenden Fensters für den Kontext natürliche Sprachsynthese mit Streaming-Eingabe ermöglicht und dabei die Fehlerquote bei langen Texten drastisch reduziert.

Changsong Liu, Tianrui Wang, Ye Ni, Yizhou Peng, Eng Siong ChngMon, 09 Ma🤖 cs.AI

RAMoEA-QA: Hierarchical Specialization for Robust Respiratory Audio Question Answering

Das Papier stellt RAMoEA-QA vor, ein hierarchisch geroutetes generatives Modell, das durch eine zweistufige Bedingungsspezialisierung mittels Audio-Mixture-of-Experts und Language-Mixture-of-Adapters robuste und generalisierbare Antworten auf Fragen zu respiratorischen Audiodaten liefert und dabei bestehende Baseline-Modelle übertrifft.

Gaia A. Bertolino, Yuwei Zhang, Tong Xia, Domenico Talia, Cecilia MascoloMon, 09 Ma🤖 cs.AI

Text-only adaptation in LLM-based ASR through text denoising

Diese Arbeit stellt eine leichte Text-only-Anpassungsmethode für LLM-basierte Spracherkennung vor, die das Problem als Textentrauschung formuliert, um die Domänenanpassung zu ermöglichen, ohne die kritische Ausrichtung zwischen Sprach- und Textmodalität zu stören.

Andrés Carofilis, Sergio Burdisso, Esaú Villatoro-Tello, Shashi Kumar, Kadri Hacioglu, Srikanth Madikeri, Pradeep Rangappa, Manjunath K E, Petr Motlicek, Shankar Venkatesan, Andreas StolckeFri, 13 Ma⚡ eess