Trade-offs between structural richness and communication efficiency in music network representations

Die Studie zeigt, dass die Wahl der musikalischen Merkmalskodierung in Netzwerkdarstellungen einen grundlegenden Zielkonflikt zwischen struktureller Detailtreue und kommunikativer Effizienz aufdeckt, wobei einfache Darstellungen zwar höhere Unsicherheit, aber bessere Lernbarkeit bieten, während komplexere Kodierungen feinere Unterscheidungen ermöglichen, jedoch die Vorhersagbarkeit für den Hörer erschweren.

Lluc Bono Rosselló, Robert Jankowski, Hugues Bersini, Marián Boguñá, M. Ángeles SerranoThu, 12 Ma🧬 q-bio

Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention

Die Arbeit stellt Dolphin vor, eine effiziente audio-visuelle Sprachtrennungsmethode, die durch einen dualen lippenbasierten Semantik-Encoder und einen Multi-Scale-Global-Local-Attention-Mechanismus eine überlegene Trennqualität bei gleichzeitig signifikant reduzierter Rechenkomplexität und höherer Inferenzgeschwindigkeit im Vergleich zu aktuellen State-of-the-Art-Modellen erreicht.

Kai Li, Kejun Gao, Xiaolin HuThu, 12 Ma💻 cs

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

Die Arbeit stellt HyWA vor, eine personalisierte Sprachaktivitätserkennungsmethode, die mithilfe eines Hypernetzes angepasste Gewichte für ausgewählte Schichten eines Standardmodells generiert und dabei sowohl die Genauigkeit als auch die Deployment-Effizienz im Vergleich zu bestehenden Sprecher-Conditioning-Verfahren verbessert.

Mahsa Ghazvini Nejad, Hamed Jafarzadeh Asl, Amin Edraki, Mohammadreza Sadeghi, Masoud Asgharian, Yuanhao Yu, Vahid Partovi NiaThu, 12 Ma⚡ eess

ID-LoRA: Identity-Driven Audio-Video Personalization with In-Context LoRA

ID-LoRA ist ein bahnbrechendes Modell, das erstmals die personalisierte Generierung von visuellem Aussehen und Stimme in einem einzigen Durchlauf mittels eines In-Context-LoRA-Ansatzes auf einer Audio-Video-Diffusionsbasis ermöglicht und dabei durch innovative Techniken wie negative Zeitpositionen und Identitätsführung eine überlegene Synchronität und Ähnlichkeit im Vergleich zu bestehenden Methoden erzielt.

Aviad Dahan, Moran Yanuka, Noa Kraicer, Lior Wolf, Raja GiryesThu, 12 Ma💻 cs

FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System

Die Arbeit stellt FireRedASR2S vor, ein industrietaugliches, all-in-one Spracherkennungssystem, das durch die Integration von vier hochoptimierten Modulen für Spracherkennung, Stimmerkennung, Sprachidentifikation und Interpunktionsvorhersage state-of-the-art Ergebnisse auf zahlreichen Benchmarks für Mandarin, Dialekte und weitere Sprachen erzielt.

Kaituo Xu, Yan Jia, Kai Huang, Junjie Chen, Wenpeng Li, Kun Liu, Feng-Long Xie, Xu Tang, Yao HuThu, 12 Ma⚡ eess

MoXaRt: Audio-Visual Object-Guided Sound Interaction for XR

Das Paper stellt MoXaRt vor, ein Echtzeit-System für Extended Reality, das mithilfe von Audio-Visual-Ankerpunkten komplexe Klangmischungen präzise trennt und dadurch in feindseligen akustischen Umgebungen die Sprachverständlichkeit um 36,2 % steigert sowie die kognitive Belastung signifikant reduziert.

Tianyu Xu, Sieun Kim, Qianhui Zheng, Ruoyu Xu, Tejasvi Ravi, Anuva Kulkarni, Katrina Passarella-Ward, Junyi Zhu, Adarsh KowdleThu, 12 Ma💻 cs

Distilling LLM Semantic Priors into Encoder-Only Multi-Talker ASR with Talker-Count Routing

Diese Arbeit stellt einen rechen-effizienten, encoder-only Multi-Talker-ASR-Ansatz vor, der semantische Priors von großen Sprachmodellen durch Destillation in den Encoder integriert und über eine Talker-Count-Routing-Komponente variable Sprecherzahlen handhabt, wodurch bei geringerer Latenz eine Leistung erzielt wird, die in komplexeren Szenarien bestehende LLM-basierte Systeme übertrifft.

Hao Shi, Yusuke Fujita, Roman Koshkin, Mengjie Zhao, Yuan Gao, Lianbo Liu, Yui SudoThu, 12 Ma💻 cs

Geo-ATBench: A Benchmark for Geospatial Audio Tagging with Geospatial Semantic Context

Die Arbeit stellt Geo-ATBench, einen neuen Benchmark für geospatiales Audio-Tagging, und das Framework GeoFusion-AT vor, um nachzuweisen, dass die Integration geospatialer semantischer Kontexte die Mehrklassen-Erkennung von Umgebungsgeräuschen, insbesondere bei akustisch ähnlichen Ereignissen, signifikant verbessert.

Yuanbo Hou, Yanru Wu, Qiaoqiao Ren, Shengchen Li, Stephen Roberts, Dick BotteldoorenThu, 12 Ma⚡ eess

AlphaFlowTSE: One-Step Generative Target Speaker Extraction via Conditional AlphaFlow

Das Paper stellt AlphaFlowTSE vor, ein einstufiges generatives Modell für die Extraktion von Zielsprechern aus Mehrsprecher-Mischungen, das durch einen JVP-freien AlphaFlow-Zielwert und eine Lehrer-Schüler-Struktur Latenz reduziert und gleichzeitig die Ähnlichkeit zum Zielsprecher sowie die Robustheit für die automatische Spracherkennung verbessert.

Duojia Li, Shuhan Zhang, Zihan Qian, Wenxuan Wu, Shuai Wang, Qingyang Hong, Lin Li, Haizhou LiThu, 12 Ma🤖 cs.AI

Towards Robust Speech Deepfake Detection via Human-Inspired Reasoning

Die Arbeit stellt HIR-SDD vor, ein neuartiges Framework zur Erkennung von Sprach-Deepfakes, das Large Audio Language Models mit menschenähnlichem Chain-of-Thought-Reasoning auf Basis eines neu annotierten Datensatzes kombiniert, um sowohl die Generalisierungsfähigkeit als auch die Interpretierbarkeit der Vorhersagen zu verbessern.

Artem Dvirniak, Evgeny Kushnir, Dmitrii Tarasov, Artem Iudin, Oleg Kiriukhin, Mikhail Pautov, Dmitrii Korzh, Oleg Y. RogovThu, 12 Ma🤖 cs.AI

Speaker Verification with Speech-Aware LLMs: Evaluation and Augmentation

Die Studie zeigt, dass sprachbewusste Large Language Models (LLMs) zwar eine schwache Sprechererkennung aufweisen, diese jedoch durch eine leichte Augmentation mit eingefrorenen ECAPA-TDNN-Einbettungen und LoRA-Adaptern erheblich verbessert werden kann, sodass sie nahezu die Leistung dedizierter Systeme erreichen, während die natürliche Schnittstelle erhalten bleibt.

Thomas Thebaud, Yuzhe Wang, Laureano Moro-Velazquez, Jesus Villalba-Lopez, Najim DehakThu, 12 Ma🤖 cs.AI

VoxCare: Studying Natural Communication Behaviors of Hospital Caregivers through Wearable Sensing of Egocentric Audio

Die Studie stellt VoxCare vor, ein skalierbares, datenschutzkonformes System zur Echtzeiterfassung von Kommunikationsmustern medizinischer Fachkräfte über tragbare Audio-Sensoren, um durch die Analyse von Sprechaktivität und vokaler Erregung Rückschlüsse auf Arbeitsbelastung und Stress im klinischen Alltag zu ziehen und so die Patientenversorgung zu verbessern.

Tiantian Feng, Kleanthis Avramidis, Anfeng Xu, Deqi Wang, Brandon M Booth, Shrikanth NarayananThu, 12 Ma💻 cs