cs.SD Arbeiten | Gist.Science

When Fine-Tuning Fails and when it Generalises: Role of Data Diversity and Mixed Training in LLM-based TTS

Die Studie zeigt, dass das LoRA-Fine-Tuning von LLM-basierten TTS-Systemen bei ausreichend vielfältigen Trainingsdaten die Sprachqualität, Sprecherähnlichkeit und das Signal-Rausch-Verhältnis signifikant verbessert und dabei die Grenzen gefrorener Basismodelle überwindet.

Anupam Purwar, Aditya ChoudharyThu, 12 Ma🤖 cs.AI

Training-Free Multi-Step Inference for Target Speaker Extraction

Der vorgestellte Ansatz ermöglicht eine trainingsfreie, mehrstufige Inferenz für die Extraktion von Zielsprechern durch iterative Verfeinerung eines eingefrorenen vortrainierten Modells, wobei eine gemeinsame Optimierung mehrerer Metriken eine kontrollierbare Anpassung für den praktischen Einsatz ohne Ground-Truth-Referenzen erlaubt.

Zhenghai You, Ying Shi, Lantian Li, Dong WangThu, 12 Ma💻 cs

V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

Die Arbeit stellt V2M-Zero vor, eine Methode zur Erzeugung von zeitlich synchronisierter Musik aus Videos ohne gepaarte Trainingsdaten, indem sie die gemeinsame zeitliche Struktur beider Modalitäten über intramodale Ereigniskurven nutzt, um Text-zu-Musik-Modelle effektiv für Video-zu-Musik-Aufgaben anzupassen.

Yan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. BryanThu, 12 Ma🤖 cs.AI

Efficient Emotion and Speaker Adaptation in LLM-Based TTS via Characteristic-Specific Partial Fine-Tuning

Die Arbeit stellt CSP-FT vor, eine effiziente Strategie zur teilweisen Feinabstimmung von LLM-basierten TTS-Modellen, die durch die gezielte Anpassung nur zweier spezifischer Schichten die Trainingszeit halbiert, das Katastrophale Vergessen verhindert und gleichzeitig die Anpassungsfähigkeit an neue Sprecher und Emotionen verbessert.

Tianrui Wang, Meng Ge, Cheng Gong, Chunyu Qiang, Haoyu Wang, Zikang Huang, Yu Jiang, Ye Ni, Yuheng Lu, Xiaobao Wang, Engsiong Chng, Xie Chen, Longbiao Wang, Jianwu DangMon, 09 Ma💻 cs

HVAC-EAR: Eavesdropping Human Speech Using HVAC Systems

Die Studie HVAC-EAR demonstriert erstmals, dass menschliche Sprache über die akustischen Druckdaten von HVAC-Systemen auch bei niedrigen Abtastraten und über Entfernungen von bis zu 1,2 Metern rekonstruiert werden kann, was neue Datenschutzbedenken aufwirft.

Tarikul Islam Tamiti, Biraj Joshi, Rida Hasan, Anomadarshi BaruaMon, 09 Ma💻 cs

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

Diese Arbeit stellt einen end-to-end Ansatz für die audio-visuelle Spracherkennung vor, der durch eine Conformer-basierte Fusionsarchitektur und integrierte Sprachverbesserung auf explizite Masken verzichtet, um semantisch relevante Informationen zu bewahren und die Rauschrobustheit zu steigern.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei YinMon, 09 Ma🤖 cs.AI

LMU-Based Sequential Learning and Posterior Ensemble Fusion for Cross-Domain Infant Cry Classification

Die Arbeit stellt ein kompaktes akustisches Framework vor, das MFCC-, STFT- und Pitch-Features mit einem multi-branch CNN und einer Legendre Memory Unit (LMU) kombiniert, um durch kalibrierte Posterior-Ensemble-Fusion die domänenübergreifende Klassifizierung von Säuglingsweinen zu verbessern.

Niloofar Jazaeri, Hilmi R. Dajani, Marco Janeczek, Martin BouchardMon, 09 Ma🤖 cs.LG

Whisper-RIR-Mega: A Paired Clean-Reverberant Speech Benchmark for ASR Robustness to Room Acoustics

Die Arbeit stellt Whisper-RIR-Mega vor, einen neuen Benchmark-Datensatz aus gepaarten sauberen und halligen Sprachaufnahmen, der die Robustheit verschiedener Whisper-ASR-Modelle gegenüber Raumakustik-Effekten systematisch bewertet und dabei zeigt, dass Hall die Erkennungsleistung konsistent verschlechtert.

Mandip GoswamiMon, 09 Ma🤖 cs.AI

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

Der Paper stellt Omni-C vor, einen einzigen dichten Transformer-Encoder, der durch unimodales kontrastives Vor-Training auf großen unalignierten Daten heterogene Modalitäten wie Bilder, Audio und Text effizient in gemeinsamen Repräsentationen vereint und dabei den Bedarf an Mixture-of-Expert-Architekturen, gepaarter Überwachung oder Routing-Overhead eliminiert.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de GusmãoMon, 09 Ma🤖 cs.AI

Koopman Regularized Deep Speech Disentanglement for Speaker Verification

Die Arbeit stellt den Deep Koopman Speech Disentanglement Autoencoder (DKSD-AE) vor, ein strukturiertes Autoencoder-Modell, das durch die Kombination eines multi-stufigen Koopman-Operator-Lernmoduls mit Instanznormalisierung sprecher- und inhaltsabhängige Merkmale ohne textuelle Aufsicht effektiv trennt und dabei eine wettbewerbsfähige Sprecherüberprüfungsleistung bei deutlich weniger Parametern erzielt.

Nikos Chazaridis, Mohammad Belal, Rafael Mestre, Timothy J. Norman, Christine EversMon, 09 Ma🤖 cs.LG

Which Data Matter? Embedding-Based Data Selection for Speech Recognition

Diese Arbeit zeigt, dass die gezielte Auswahl eines 5%-Datensubsets aus 100.000 Stunden unstrukturierter Sprachdaten mittels embeddingsbasierter Repräsentation von Sprecher-, phonetischen und semantischen Merkmalen die Leistung spezialisierter Spracherkennungsmodelle auf Zielbereichen im Vergleich zum Training mit dem gesamten Datensatz um bis zu 36,8 % relative Wortfehlerrate reduziert.

Zakaria Aldeneh, Skyler Seto, Maureen de Seyssel, Jie Chi, Zijin Gu, Takuya Higuchi, Jee-weon Jung, Shinji Watanabe, David Grangier, Barry-John Theobald, Tatiana LikhomanenkoMon, 09 Ma💻 cs

How Well Do Current Speech Deepfake Detection Methods Generalize to the Real World?

Die Studie stellt mit ML-ITW ein multilinguales Datenset für reale Umgebungen vor und zeigt, dass aktuelle Deepfake-Erkennungsmethoden unter realen Bedingungen und in verschiedenen Sprachen erhebliche Generalisierungsprobleme aufweisen.

Daixian Li, Jun Xue, Yanzhen Ren, Zhuolin Yi, Yihuan Huang, Guanxiang Feng, Yi ChaiMon, 09 Ma💻 cs

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

Die Arbeit stellt TempoSyncDiff vor, einen effizienten, auf Wissenstransfer basierenden Latent-Diffusionsrahmen für audiogetriebene sprechende Köpfe, der durch Few-Step-Inferenz, Identitätsanker und zeitliche Regularisierung eine niedrige Latenz bei gleichzeitiger Verbesserung der temporalen Stabilität und Synchronisation ermöglicht.

Soumya Mazumdar, Vineet Kumar RakeshMon, 09 Ma🤖 cs.AI

Do Compact SSL Backbones Matter for Audio Deepfake Detection? A Controlled Study with RAPTOR

Die Studie RAPTOR zeigt, dass für die robuste Erkennung von Audio-Deepfakes über verschiedene Domänen hinweg die Art des SSL-Vor-Trainings (insbesondere multilinguales HuBERT) entscheidender ist als die reine Modellgröße, wobei kompakte Modelle mit 100 Millionen Parametern kommerzielle Großsysteme übertreffen und eine stabilere Kalibrierung unter Störungen aufweisen.

Ajinkya Kulkarni, Sandipana Dowerah, Atharva Kulkarni, Tanel Alumäe, Mathew Magimai DossMon, 09 Ma🤖 cs.AI

Whisper-CD: Accurate Long-Form Speech Recognition using Multi-Negative Contrastive Decoding

Das Paper stellt Whisper-CD vor, ein reines Inferenz-Verfahren, das durch kontrastives Decodieren mit akustisch motivierten Störungen Halluzinationen und Wiederholungen bei der langen Spracherkennung mit Whisper reduziert und gleichzeitig die Generierungsgeschwindigkeit im Vergleich zur Beam Search deutlich steigert.

Hoseong Ahn, Jeongyun Chae, Yoonji Park, Kyuhong ShimMon, 09 Ma🤖 cs.AI

Continual Adaptation for Pacific Indigenous Speech Recognition

Diese Studie zeigt, dass die Anpassung von Sprachgrundmodellen an ressourcenarme pazifische indigene Sprachen durch Datenknappheit und das Problem des katastrophalen Vergessens bei sequenziellem Lernen erschwert wird, was eine dringende Notwendigkeit robusterer Anpassungsstrategien unterstreicht.

Yang Xiao, Aso Mahmudi, Nick Thieberger, Eliathamby Ambikairajah, Eun-Jung Holden, Ting DangMon, 09 Ma💬 cs.CL

Prosodic Boundary-Aware Streaming Generation for LLM-Based TTS with Streaming Text Input

Die vorgestellte Arbeit schlägt eine prosodiebewusste Nachtrainingsstrategie für LLM-basierte Text-to-Speech-Modelle vor, die durch das Lernen eines frühen Stopps an semantischen Grenzen und die Verwendung eines gleitenden Fensters für den Kontext natürliche Sprachsynthese mit Streaming-Eingabe ermöglicht und dabei die Fehlerquote bei langen Texten drastisch reduziert.

Changsong Liu, Tianrui Wang, Ye Ni, Yizhou Peng, Eng Siong ChngMon, 09 Ma🤖 cs.AI

RAMoEA-QA: Hierarchical Specialization for Robust Respiratory Audio Question Answering

Das Papier stellt RAMoEA-QA vor, ein hierarchisch geroutetes generatives Modell, das durch eine zweistufige Bedingungsspezialisierung mittels Audio-Mixture-of-Experts und Language-Mixture-of-Adapters robuste und generalisierbare Antworten auf Fragen zu respiratorischen Audiodaten liefert und dabei bestehende Baseline-Modelle übertrifft.

Gaia A. Bertolino, Yuwei Zhang, Tong Xia, Domenico Talia, Cecilia MascoloMon, 09 Ma🤖 cs.AI

Audio-Language Models for Audio-Centric Tasks: A Systematic Survey

Diese Arbeit bietet die erste systematische Übersicht über Audio-Sprach-Modelle, die eine umfassende Abdeckung von Sprach-, Musik- und Geräuschdaten, eine einheitliche Taxonomie der Modellarchitekturen und Trainingsziele sowie eine Analyse des Forschungslandschafts mit Blick auf Herausforderungen und zukünftige Richtungen umfasst.

Yi Su, Jisheng Bai, Qisheng Xu, Kele Xu, Yong DouFri, 13 Ma⚡ eess

Text-only adaptation in LLM-based ASR through text denoising

Diese Arbeit stellt eine leichte Text-only-Anpassungsmethode für LLM-basierte Spracherkennung vor, die das Problem als Textentrauschung formuliert, um die Domänenanpassung zu ermöglichen, ohne die kritische Ausrichtung zwischen Sprach- und Textmodalität zu stören.

Andrés Carofilis, Sergio Burdisso, Esaú Villatoro-Tello, Shashi Kumar, Kadri Hacioglu, Srikanth Madikeri, Pradeep Rangappa, Manjunath K E, Petr Motlicek, Shankar Venkatesan, Andreas StolckeFri, 13 Ma⚡ eess

← Zurück Weiter →