Trade-offs between structural richness and communication efficiency in music network representations

Dit onderzoek toont aan dat de keuze van muzikale feature-encodings de structuur van netwerken fundamenteel beïnvloedt, waarbij een compromis bestaat tussen rijke, gedetailleerde representaties die de toestandruimte uitbreiden en eenvoudige, geperste weergaven die een hogere onzekerheid maar lagere modelfouten opleveren voor het modelleren van menselijke verwachtingen.

Lluc Bono Rosselló, Robert Jankowski, Hugues Bersini, Marián Boguñá, M. Ángeles SerranoThu, 12 Ma🧬 q-bio

AMB-DSGDN: Adaptive Modality-Balanced Dynamic Semantic Graph Differential Network for Multimodal Emotion Recognition

Dit paper introduceert AMB-DSGDN, een adaptief netwerk dat multimodale emotionele herkenning verbetert door dynamische semantische grafdifferentiatie te gebruiken voor het filteren van ruis en een evenwichtsmechanisme om te voorkomen dat dominante modaliteiten de bijdrage van andere modaliteiten onderdrukken.

Yunsheng Wang, Yuntao Shou, Yilong Tan, Wei Ai, Tao Meng, Keqin LiThu, 12 Ma🤖 cs.AI

PRoADS: Provably Secure and Robust Audio Diffusion Steganography with latent optimization and backward Euler Inversion

Dit artikel introduceert PRoADS, een bewezen veilig en robuust audiostreamsysteem dat geheime berichten via orthogonale projectie in de initiële ruis van diffusiemodellen verbergt en gebruikmaakt van latente optimalisatie en achterwaartse Euler-inversie om reconstructiefouten te minimaliseren en een uitzonderlijk lage bitfoutkans van 0,15% onder MP3-compressie te bereiken.

YongPeng Yan, Yanan Li, Qiyang Xiao, Yanzhen RenThu, 12 Ma💻 cs

FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System

Dit paper introduceert FireRedASR2S, een geavanceerd industriële 'all-in-one' spraakherkenningsysteem dat geïntegreerde modules voor spraakherkenning, spraakdetectie, taalidentificatie en leestekens voorspelling combineert en hiermee state-of-the-art prestaties bereikt op diverse benchmarks.

Kaituo Xu, Yan Jia, Kai Huang, Junjie Chen, Wenpeng Li, Kun Liu, Feng-Long Xie, Xu Tang, Yao HuThu, 12 Ma⚡ eess

G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition

Het paper introduceert G-STAR, een end-to-end systeem dat een tijdbewuste spreker-trackingmodule koppelt aan een Speech-LLM-transcriptiebackbone om tijdgestempelde, spreker-gelabelde transcripties te genereren voor lange, multi-partij gesprekken met overlappingen, terwijl het de consistentie van sprekeridentiteiten op vergaderingsniveau behoudt.

Jing Peng, Ziyi Chen, Haoyu Li, Yucheng Wang, Duo Ma, Mengtian Li, Yunfan Du, Dezhu Xu, Kai Yu, Shuai WangThu, 12 Ma⚡ eess

Towards Robust Speech Deepfake Detection via Human-Inspired Reasoning

Dit paper introduceert HIR-SDD, een nieuw framework voor het detecteren van spraakdeepfakes dat Large Audio Language Models combineert met chain-of-thought-redenering op basis van een menselijk geannoteerde dataset om zowel de generalisatie als de interpretatie van detecties te verbeteren.

Artem Dvirniak, Evgeny Kushnir, Dmitrii Tarasov, Artem Iudin, Oleg Kiriukhin, Mikhail Pautov, Dmitrii Korzh, Oleg Y. RogovThu, 12 Ma🤖 cs.AI

Speaker Verification with Speech-Aware LLMs: Evaluation and Augmentation

Dit paper introduceert een model-onafhankelijke evaluatieprotocol dat aantoont dat spraakbewuste LLM's een zwakke sprekerdiscriminatie hebben, en lost dit op met een lichtgewicht augmentatie die ECAPA-TDNN-embeddings via LoRA injecteert om een natuurlijke taalinterface te combineren met state-of-the-art sprekerverificatie.

Thomas Thebaud, Yuzhe Wang, Laureano Moro-Velazquez, Jesus Villalba-Lopez, Najim DehakThu, 12 Ma🤖 cs.AI

OSUM-Pangu: An Open-Source Multidimension Speech Understanding Foundation Model Built upon OpenPangu on Ascend NPUs

Dit paper introduceert OSUM-Pangu, een volledig open-source foundation model voor multidimensionale spraakbegrip dat is gebouwd op de openPangu-7B LLM en volledig draait op Ascend NPUs zonder CUDA, waardoor een reproduceerbare, GPU-onafhankelijke baseline wordt geboden met prestaties vergelijkbaar met bestaande GPU-modellen.

Yujie Liao, Xuelong Geng, Hongfei Xue, Shuiyuan Wang, Lei XieThu, 12 Ma💻 cs