Trade-offs between structural richness and communication efficiency in music network representations

Die Studie zeigt, dass die Wahl der musikalischen Merkmalskodierung in Netzwerkdarstellungen einen grundlegenden Zielkonflikt zwischen struktureller Detailtreue und kommunikativer Effizienz aufdeckt, wobei einfache Darstellungen zwar höhere Unsicherheit, aber bessere Lernbarkeit bieten, während komplexere Kodierungen feinere Unterscheidungen ermöglichen, jedoch die Vorhersagbarkeit für den Hörer erschweren.

Lluc Bono Rosselló, Robert Jankowski, Hugues Bersini, Marián Boguñá, M. Ángeles SerranoThu, 12 Ma🧬 q-bio

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

Die Arbeit stellt HyWA vor, eine personalisierte Sprachaktivitätserkennungsmethode, die mithilfe eines Hypernetzes angepasste Gewichte für ausgewählte Schichten eines Standardmodells generiert und dabei sowohl die Genauigkeit als auch die Deployment-Effizienz im Vergleich zu bestehenden Sprecher-Conditioning-Verfahren verbessert.

Mahsa Ghazvini Nejad, Hamed Jafarzadeh Asl, Amin Edraki, Mohammadreza Sadeghi, Masoud Asgharian, Yuanhao Yu, Vahid Partovi NiaThu, 12 Ma⚡ eess

FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System

Die Arbeit stellt FireRedASR2S vor, ein industrietaugliches, all-in-one Spracherkennungssystem, das durch die Integration von vier hochoptimierten Modulen für Spracherkennung, Stimmerkennung, Sprachidentifikation und Interpunktionsvorhersage state-of-the-art Ergebnisse auf zahlreichen Benchmarks für Mandarin, Dialekte und weitere Sprachen erzielt.

Kaituo Xu, Yan Jia, Kai Huang, Junjie Chen, Wenpeng Li, Kun Liu, Feng-Long Xie, Xu Tang, Yao HuThu, 12 Ma⚡ eess

Geo-ATBench: A Benchmark for Geospatial Audio Tagging with Geospatial Semantic Context

Die Arbeit stellt Geo-ATBench, einen neuen Benchmark für geospatiales Audio-Tagging, und das Framework GeoFusion-AT vor, um nachzuweisen, dass die Integration geospatialer semantischer Kontexte die Mehrklassen-Erkennung von Umgebungsgeräuschen, insbesondere bei akustisch ähnlichen Ereignissen, signifikant verbessert.

Yuanbo Hou, Yanru Wu, Qiaoqiao Ren, Shengchen Li, Stephen Roberts, Dick BotteldoorenThu, 12 Ma⚡ eess

MOS-Bias: From Hidden Gender Bias to Gender-Aware Speech Quality Assessment

Diese Studie enthüllt einen systematischen Geschlechterbias bei der Mean Opinion Score (MOS)-Bewertung, bei dem männliche Zuhörer höhere Werte vergeben, und schlägt ein geschlechterbewusstes Modell vor, das durch das Lernen geschlechtsspezifischer Bewertungsmuster eine fairere und genauere Sprachqualitätsbewertung ermöglicht.

Wenze Ren, Yi-Cheng Lin, Wen-Chin Huang, Erica Cooper, Ryandhimas E. Zezario, Hsin-Min Wang, Hung-yi Lee, Yu TsaoThu, 12 Ma⚡ eess

Efficient Emotion and Speaker Adaptation in LLM-Based TTS via Characteristic-Specific Partial Fine-Tuning

Die Arbeit stellt CSP-FT vor, eine effiziente Strategie zur teilweisen Feinabstimmung von LLM-basierten TTS-Modellen, die durch die gezielte Anpassung nur zweier spezifischer Schichten die Trainingszeit halbiert, das Katastrophale Vergessen verhindert und gleichzeitig die Anpassungsfähigkeit an neue Sprecher und Emotionen verbessert.

Tianrui Wang, Meng Ge, Cheng Gong, Chunyu Qiang, Haoyu Wang, Zikang Huang, Yu Jiang, Ye Ni, Yuheng Lu, Xiaobao Wang, Engsiong Chng, Xie Chen, Longbiao Wang, Jianwu DangMon, 09 Ma💻 cs

The trajectoRIR Database: Room Acoustic Recordings Along a Trajectory of Moving Microphones

Dieses Paper stellt die trajectoRIR-Datenbank vor, eine umfassende Sammlung von dynamischen und stationären akustischen Aufnahmen entlang einer kontrollierten L-förmigen Trajektorie in einem Raum, die verschiedene Mikrofonkonfigurationen und Bewegungsgeschwindigkeiten kombiniert, um Anwendungen wie Schallquellenlokalisation, räumliche Klangfeldrekonstruktion und Auralisierung zu unterstützen.

Stefano Damiano, Kathleen MacWilliam, Valerio Lorenzoni, Thomas Dietzen, Toon van WaterschootMon, 09 Ma⚡ eess

ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction

Die Arbeit stellt ParaS2S vor, ein neues Reinforcement-Learning-Framework mit einem dazugehörigen Benchmark und einem automatischen Bewerter, das Sprach-zu-Sprach-Modelle effektiv darin schult, sowohl inhaltlich als auch stilistisch (z. B. Emotionen, Tonfall) auf paralinguistische Hinweise angemessen zu reagieren und dabei weniger auf paarweise annotierte Daten angewiesen ist als herkömmliche Methoden.

Shu-wen Yang, Ming Tu, Andy T. Liu, Xinghua Qu, Hung-yi Lee, Lu Lu, Yuxuan Wang, Yonghui WuMon, 09 Ma⚡ eess

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

Diese Arbeit stellt einen end-to-end Ansatz für die audio-visuelle Spracherkennung vor, der durch eine Conformer-basierte Fusionsarchitektur und integrierte Sprachverbesserung auf explizite Masken verzichtet, um semantisch relevante Informationen zu bewahren und die Rauschrobustheit zu steigern.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei YinMon, 09 Ma🤖 cs.AI

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

Der Paper stellt Omni-C vor, einen einzigen dichten Transformer-Encoder, der durch unimodales kontrastives Vor-Training auf großen unalignierten Daten heterogene Modalitäten wie Bilder, Audio und Text effizient in gemeinsamen Repräsentationen vereint und dabei den Bedarf an Mixture-of-Expert-Architekturen, gepaarter Überwachung oder Routing-Overhead eliminiert.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de GusmãoMon, 09 Ma🤖 cs.AI