cs.SD Arbeiten | Gist.Science

Trade-offs between structural richness and communication efficiency in music network representations

Die Studie zeigt, dass die Wahl der musikalischen Merkmalskodierung in Netzwerkdarstellungen einen grundlegenden Zielkonflikt zwischen struktureller Detailtreue und kommunikativer Effizienz aufdeckt, wobei einfache Darstellungen zwar höhere Unsicherheit, aber bessere Lernbarkeit bieten, während komplexere Kodierungen feinere Unterscheidungen ermöglichen, jedoch die Vorhersagbarkeit für den Hörer erschweren.

Lluc Bono Rosselló, Robert Jankowski, Hugues Bersini, Marián Boguñá, M. Ángeles SerranoThu, 12 Ma🧬 q-bio

Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention

Die Arbeit stellt Dolphin vor, eine effiziente audio-visuelle Sprachtrennungsmethode, die durch einen dualen lippenbasierten Semantik-Encoder und einen Multi-Scale-Global-Local-Attention-Mechanismus eine überlegene Trennqualität bei gleichzeitig signifikant reduzierter Rechenkomplexität und höherer Inferenzgeschwindigkeit im Vergleich zu aktuellen State-of-the-Art-Modellen erreicht.

Kai Li, Kejun Gao, Xiaolin HuThu, 12 Ma💻 cs

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

Die Arbeit stellt HyWA vor, eine personalisierte Sprachaktivitätserkennungsmethode, die mithilfe eines Hypernetzes angepasste Gewichte für ausgewählte Schichten eines Standardmodells generiert und dabei sowohl die Genauigkeit als auch die Deployment-Effizienz im Vergleich zu bestehenden Sprecher-Conditioning-Verfahren verbessert.

Mahsa Ghazvini Nejad, Hamed Jafarzadeh Asl, Amin Edraki, Mohammadreza Sadeghi, Masoud Asgharian, Yuanhao Yu, Vahid Partovi NiaThu, 12 Ma⚡ eess

Evaluation of Audio Compression Codecs

Diese Arbeit bewertet gängige Audio-Kompressionscodecs nicht nur hinsichtlich ihrer Komprimierungseffizienz, sondern auch ihrer wahrgenommenen Klangqualität, um Nutzern fundierte Entscheidungen bei der Auswahl eines Kompressionsverfahrens zu ermöglichen.

Thien T. Duong, Jan P. SpringerThu, 12 Ma💻 cs

AMB-DSGDN: Adaptive Modality-Balanced Dynamic Semantic Graph Differential Network for Multimodal Emotion Recognition

Die Arbeit stellt das AMB-DSGDN-Modell vor, das durch adaptive Modality-Balancing-Mechanismen und einen differentiellen Graph-Attention-Ansatz redundante Signale filtert und dominante Modalitäten ausgleicht, um die multimodale Emotionserkennung in Dialogen zu verbessern.

Yunsheng Wang, Yuntao Shou, Yilong Tan, Wei Ai, Tao Meng, Keqin LiThu, 12 Ma🤖 cs.AI

nlm: Real-Time Non-linear Modal Synthesis in Max

Die Arbeit stellt \texttt{nlm} vor, eine Open-Source-Sammlung von Max-Externals in C++, die Echtzeit-Nichtlinearer-Modal-Synthese für Saiten, Membranen und Platten mit interaktiver Parametersteuerung und Mehrkanalausgabe ermöglicht.

Rodrigo Diaz, Rodrigo Constanzo, Mark SandlerThu, 12 Ma⚡ eess

ID-LoRA: Identity-Driven Audio-Video Personalization with In-Context LoRA

ID-LoRA ist ein bahnbrechendes Modell, das erstmals die personalisierte Generierung von visuellem Aussehen und Stimme in einem einzigen Durchlauf mittels eines In-Context-LoRA-Ansatzes auf einer Audio-Video-Diffusionsbasis ermöglicht und dabei durch innovative Techniken wie negative Zeitpositionen und Identitätsführung eine überlegene Synchronität und Ähnlichkeit im Vergleich zu bestehenden Methoden erzielt.

Aviad Dahan, Moran Yanuka, Noa Kraicer, Lior Wolf, Raja GiryesThu, 12 Ma💻 cs

PRoADS: Provably Secure and Robust Audio Diffusion Steganography with latent optimization and backward Euler Inversion

Das Papier stellt PRoADS vor, ein provisorisch sicheres und robustes Audio-Steganographie-Framework auf Basis von Diffusionsmodellen, das durch latente Optimierung und eine Rückwärts-Euler-Inversion eine außergewöhnlich niedrige Bitfehlerrate von 0,15 % unter MP3-Kompression erreicht.

YongPeng Yan, Yanan Li, Qiyang Xiao, Yanzhen RenThu, 12 Ma💻 cs

NasoVoce: A Nose-Mounted Low-Audibility Speech Interface for Always-Available Speech Interaction

Das Paper stellt NasoVoce vor, eine unauffällige, an der Nasenbrücke montierte Schnittstelle, die durch die Fusion von Mikrofon- und Vibrationssensordaten eine robuste und diskrete Spracherkennung für leise und geflüsterte Sprache in lauten Umgebungen ermöglicht.

Jun Rekimoto, Yu Nishimura, Bojian YangThu, 12 Ma🤖 cs.AI

FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System

Die Arbeit stellt FireRedASR2S vor, ein industrietaugliches, all-in-one Spracherkennungssystem, das durch die Integration von vier hochoptimierten Modulen für Spracherkennung, Stimmerkennung, Sprachidentifikation und Interpunktionsvorhersage state-of-the-art Ergebnisse auf zahlreichen Benchmarks für Mandarin, Dialekte und weitere Sprachen erzielt.

Kaituo Xu, Yan Jia, Kai Huang, Junjie Chen, Wenpeng Li, Kun Liu, Feng-Long Xie, Xu Tang, Yao HuThu, 12 Ma⚡ eess

MoXaRt: Audio-Visual Object-Guided Sound Interaction for XR

Das Paper stellt MoXaRt vor, ein Echtzeit-System für Extended Reality, das mithilfe von Audio-Visual-Ankerpunkten komplexe Klangmischungen präzise trennt und dadurch in feindseligen akustischen Umgebungen die Sprachverständlichkeit um 36,2 % steigert sowie die kognitive Belastung signifikant reduziert.

Tianyu Xu, Sieun Kim, Qianhui Zheng, Ruoyu Xu, Tejasvi Ravi, Anuva Kulkarni, Katrina Passarella-Ward, Junyi Zhu, Adarsh KowdleThu, 12 Ma💻 cs

G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition

Das Papier stellt G-STAR vor, ein End-to-End-System, das ein zeitbewusstes Sprecher-Tracking-Modul mit einem Speech-LLM kombiniert, um für lange, überlappende Mehrpersonengespräche konsistente, zeitgestempelte und sprecherattribuierte Transkripte zu erzeugen.

Jing Peng, Ziyi Chen, Haoyu Li, Yucheng Wang, Duo Ma, Mengtian Li, Yunfan Du, Dezhu Xu, Kai Yu, Shuai WangThu, 12 Ma⚡ eess

Distilling LLM Semantic Priors into Encoder-Only Multi-Talker ASR with Talker-Count Routing

Diese Arbeit stellt einen rechen-effizienten, encoder-only Multi-Talker-ASR-Ansatz vor, der semantische Priors von großen Sprachmodellen durch Destillation in den Encoder integriert und über eine Talker-Count-Routing-Komponente variable Sprecherzahlen handhabt, wodurch bei geringerer Latenz eine Leistung erzielt wird, die in komplexeren Szenarien bestehende LLM-basierte Systeme übertrifft.

Hao Shi, Yusuke Fujita, Roman Koshkin, Mengjie Zhao, Yuan Gao, Lianbo Liu, Yui SudoThu, 12 Ma💻 cs

Geo-ATBench: A Benchmark for Geospatial Audio Tagging with Geospatial Semantic Context

Die Arbeit stellt Geo-ATBench, einen neuen Benchmark für geospatiales Audio-Tagging, und das Framework GeoFusion-AT vor, um nachzuweisen, dass die Integration geospatialer semantischer Kontexte die Mehrklassen-Erkennung von Umgebungsgeräuschen, insbesondere bei akustisch ähnlichen Ereignissen, signifikant verbessert.

Yuanbo Hou, Yanru Wu, Qiaoqiao Ren, Shengchen Li, Stephen Roberts, Dick BotteldoorenThu, 12 Ma⚡ eess

AlphaFlowTSE: One-Step Generative Target Speaker Extraction via Conditional AlphaFlow

Das Paper stellt AlphaFlowTSE vor, ein einstufiges generatives Modell für die Extraktion von Zielsprechern aus Mehrsprecher-Mischungen, das durch einen JVP-freien AlphaFlow-Zielwert und eine Lehrer-Schüler-Struktur Latenz reduziert und gleichzeitig die Ähnlichkeit zum Zielsprecher sowie die Robustheit für die automatische Spracherkennung verbessert.

Duojia Li, Shuhan Zhang, Zihan Qian, Wenxuan Wu, Shuai Wang, Qingyang Hong, Lin Li, Haizhou LiThu, 12 Ma🤖 cs.AI

Probabilistic Verification of Voice Anti-Spoofing Models

Die Arbeit stellt PV-VASM vor, ein modellunabhängiges probabilistisches Framework zur Verifikation der Robustheit von Sprach-Anti-Spoofing-Modellen gegenüber Deepfakes und unbekannten Synthesetechniken durch die Schätzung von Fehlklassifikationswahrscheinlichkeiten und die Herleitung theoretischer Fehlerobergrenzen.

Evgeny Kushnir, Alexandr Kozodaev, Dmitrii Korzh, Mikhail Pautov, Oleg Kiriukhin, Oleg Y. RogovThu, 12 Ma🤖 cs.AI

Towards Robust Speech Deepfake Detection via Human-Inspired Reasoning

Die Arbeit stellt HIR-SDD vor, ein neuartiges Framework zur Erkennung von Sprach-Deepfakes, das Large Audio Language Models mit menschenähnlichem Chain-of-Thought-Reasoning auf Basis eines neu annotierten Datensatzes kombiniert, um sowohl die Generalisierungsfähigkeit als auch die Interpretierbarkeit der Vorhersagen zu verbessern.

Artem Dvirniak, Evgeny Kushnir, Dmitrii Tarasov, Artem Iudin, Oleg Kiriukhin, Mikhail Pautov, Dmitrii Korzh, Oleg Y. RogovThu, 12 Ma🤖 cs.AI

Speaker Verification with Speech-Aware LLMs: Evaluation and Augmentation

Die Studie zeigt, dass sprachbewusste Large Language Models (LLMs) zwar eine schwache Sprechererkennung aufweisen, diese jedoch durch eine leichte Augmentation mit eingefrorenen ECAPA-TDNN-Einbettungen und LoRA-Adaptern erheblich verbessert werden kann, sodass sie nahezu die Leistung dedizierter Systeme erreichen, während die natürliche Schnittstelle erhalten bleibt.

Thomas Thebaud, Yuzhe Wang, Laureano Moro-Velazquez, Jesus Villalba-Lopez, Najim DehakThu, 12 Ma🤖 cs.AI

OSUM-Pangu: An Open-Source Multidimension Speech Understanding Foundation Model Built upon OpenPangu on Ascend NPUs

Der Artikel stellt OSUM-Pangu vor, ein vollständig quelloffenes Sprachverständnis-Grundmodell, das auf der OpenPangu-7B-Architektur basiert und speziell für den Einsatz auf Ascend-NPUs ohne CUDA-Infrastruktur entwickelt wurde, wobei es eine mit GPU-basierten Modellen vergleichbare Genauigkeit erreicht.

Yujie Liao, Xuelong Geng, Hongfei Xue, Shuiyuan Wang, Lei XieThu, 12 Ma💻 cs

VoxCare: Studying Natural Communication Behaviors of Hospital Caregivers through Wearable Sensing of Egocentric Audio

Die Studie stellt VoxCare vor, ein skalierbares, datenschutzkonformes System zur Echtzeiterfassung von Kommunikationsmustern medizinischer Fachkräfte über tragbare Audio-Sensoren, um durch die Analyse von Sprechaktivität und vokaler Erregung Rückschlüsse auf Arbeitsbelastung und Stress im klinischen Alltag zu ziehen und so die Patientenversorgung zu verbessern.

Tiantian Feng, Kleanthis Avramidis, Anfeng Xu, Deqi Wang, Brandon M Booth, Shrikanth NarayananThu, 12 Ma💻 cs

← Zurück Weiter →