Trade-offs between structural richness and communication efficiency in music network representations

Dit onderzoek toont aan dat de keuze van muzikale feature-encodings de structuur van netwerken fundamenteel beïnvloedt, waarbij een compromis bestaat tussen rijke, gedetailleerde representaties die de toestandruimte uitbreiden en eenvoudige, geperste weergaven die een hogere onzekerheid maar lagere modelfouten opleveren voor het modelleren van menselijke verwachtingen.

Lluc Bono Rosselló, Robert Jankowski, Hugues Bersini, Marián Boguñá, M. Ángeles SerranoThu, 12 Ma🧬 q-bio

FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System

Dit paper introduceert FireRedASR2S, een geavanceerd industriële 'all-in-one' spraakherkenningsysteem dat geïntegreerde modules voor spraakherkenning, spraakdetectie, taalidentificatie en leestekens voorspelling combineert en hiermee state-of-the-art prestaties bereikt op diverse benchmarks.

Kaituo Xu, Yan Jia, Kai Huang, Junjie Chen, Wenpeng Li, Kun Liu, Feng-Long Xie, Xu Tang, Yao HuThu, 12 Ma⚡ eess

G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition

Het paper introduceert G-STAR, een end-to-end systeem dat een tijdbewuste spreker-trackingmodule koppelt aan een Speech-LLM-transcriptiebackbone om tijdgestempelde, spreker-gelabelde transcripties te genereren voor lange, multi-partij gesprekken met overlappingen, terwijl het de consistentie van sprekeridentiteiten op vergaderingsniveau behoudt.

Jing Peng, Ziyi Chen, Haoyu Li, Yucheng Wang, Duo Ma, Mengtian Li, Yunfan Du, Dezhu Xu, Kai Yu, Shuai WangThu, 12 Ma⚡ eess

MOS-Bias: From Hidden Gender Bias to Gender-Aware Speech Quality Assessment

Dit onderzoek onthult een systematische genderbias in de Mean Opinion Score (MOS) voor spraakkwaliteit, waarbij mannelijke luisteraars consequent hogere scores toekennen dan vrouwelijke luisteraars, en stelt een genderbewust model voor om deze vertekening te corrigeren en eerlijkere evaluaties mogelijk te maken.

Wenze Ren, Yi-Cheng Lin, Wen-Chin Huang, Erica Cooper, Ryandhimas E. Zezario, Hsin-Min Wang, Hung-yi Lee, Yu TsaoThu, 12 Ma⚡ eess

Efficient Emotion and Speaker Adaptation in LLM-Based TTS via Characteristic-Specific Partial Fine-Tuning

Dit artikel introduceert CSP-FT, een efficiënte strategie voor gedeeltelijke fijne afstemming die door selectief slechts twee specifieke lagen van een LLM-gebaseerd TTS-model aan te passen, de spraakherkenning en emotionele expressie verbetert terwijl het trainingsproces twee keer sneller verloopt en het risico op catastrofaal vergeten aanzienlijk wordt verminderd.

Tianrui Wang, Meng Ge, Cheng Gong, Chunyu Qiang, Haoyu Wang, Zikang Huang, Yu Jiang, Ye Ni, Yuheng Lu, Xiaobao Wang, Engsiong Chng, Xie Chen, Longbiao Wang, Jianwu DangMon, 09 Ma💻 cs

ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction

Dit paper introduceert ParaS2S, een nieuw versterkingsleerframework en bijbehorende benchmark die spraak-tot-spraakmodellen optimaliseren voor paralinguïstische cues zoals emotie en toon, waardoor ze significant beter presteren dan eerdere modellen met minder gekoppelde trainingsdata.

Shu-wen Yang, Ming Tu, Andy T. Liu, Xinghua Qu, Hung-yi Lee, Lu Lu, Yuxuan Wang, Yonghui WuMon, 09 Ma⚡ eess

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

Dit paper introduceert een end-to-end framework voor audio-visuele spraakherkenning dat ruisbestendigheid bereikt door spraakverbetering en een Conformer-gebaseerde fusie te gebruiken zonder expliciete maskers, waardoor semantische informatie beter behouden blijft dan bij eerdere methoden.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei YinMon, 09 Ma🤖 cs.AI

LMU-Based Sequential Learning and Posterior Ensemble Fusion for Cross-Domain Infant Cry Classification

Dit paper presenteert een compact acoustisch kader dat MFCC-, STFT- en pitch-kenmerken combineert met een verbeterde Legendre Memory Unit (LMU) en een geposte ensemble-fusie om de cross-domein classificatie van babyhuilen te verbeteren, wat leidt tot betere generalisatie en efficiëntie voor draagbare gezondheidsmonitoring.

Niloofar Jazaeri, Hilmi R. Dajani, Marco Janeczek, Martin BouchardMon, 09 Ma🤖 cs.LG