eess.AS papers | Gist.Science

Robust Audio-Visual Target Speaker Extraction with Emotion-Aware Multiple Enrollment Fusion

Dit artikel presenteert een robuuste emotion-bewuste methode voor audio-visuele sprekerextractie die, door te trainen met een hoge mate van ontbrekende modaliteiten, stabiele prestaties behoudt bij testtijd-uitval van signalen en zo de uitdagingen van de cocktailparty-situatie effectief aanpakt.

Zhan Jin, Bang Zeng, Peijun Yang, Jiarong Du, Wei Ju, Yao Tian, Juan Liu, Ming LiThu, 12 Ma⚡ eess

Trade-offs between structural richness and communication efficiency in music network representations

Dit onderzoek toont aan dat de keuze van muzikale feature-encodings de structuur van netwerken fundamenteel beïnvloedt, waarbij een compromis bestaat tussen rijke, gedetailleerde representaties die de toestandruimte uitbreiden en eenvoudige, geperste weergaven die een hogere onzekerheid maar lagere modelfouten opleveren voor het modelleren van menselijke verwachtingen.

Lluc Bono Rosselló, Robert Jankowski, Hugues Bersini, Marián Boguñá, M. Ángeles SerranoThu, 12 Ma🧬 q-bio

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

Het paper introduceert HyWA, een methode die hypernetwerken gebruikt om gepersonaliseerde gewichten voor een standaard spraakactiviteitsdetectiemodel te genereren, wat leidt tot betere prestaties en eenvoudigere implementatie dan bestaande technieken.

Mahsa Ghazvini Nejad, Hamed Jafarzadeh Asl, Amin Edraki, Mohammadreza Sadeghi, Masoud Asgharian, Yuanhao Yu, Vahid Partovi NiaThu, 12 Ma⚡ eess

Multi-View Based Audio Visual Target Speaker Extraction

Dit artikel introduceert Multi-View Tensor Fusion (MVTF), een nieuw raamwerk dat gebruikmaakt van gesynchroniseerde lipvideo's uit meerdere perspectieven tijdens het trainen om cross-view correlaties te leren, waardoor de prestaties en robuustheid van Audio-Visuele Doelsprekerextractie aanzienlijk worden verbeterd, zelfs bij gebruik van slechts één beeldhoek tijdens de inferentie.

Peijun Yang, Zhan Jin, Juan Liu, Ming LiThu, 12 Ma⚡ eess

Calibration-Reasoning Framework for Descriptive Speech Quality Assessment

Deze paper introduceert een kalibratie-redeneringsframework dat een Audio Large Language Model middels een kalibratiefase en versterkingslering (GRPO) optimaliseert voor het nauwkeurig analyseren, lokaliseren en beschrijven van meerdimensionale spraakkwaliteit en artefacten.

Elizaveta Kostenok, Mathieu Salzmann, Milos CernakThu, 12 Ma⚡ eess

nlm: Real-Time Non-linear Modal Synthesis in Max

Dit paper introduceert \texttt{nlm}, een open-source set Max-externals die real-time niet-lineaire modale synthesie voor snaren, membranen en platen mogelijk maakt en zo de drempel voor componisten en geluidsontwerpers verlaagt om deze expressieve techniek te verkennen.

Rodrigo Diaz, Rodrigo Constanzo, Mark SandlerThu, 12 Ma⚡ eess

Speech Codec Probing from Semantic and Phonetic Perspectives

Dit artikel analyseert dat bestaande spraaktokenizers voornamelijk fonetische in plaats van semantische informatie vastleggen, wat leidt tot praktische aanbevelingen voor het ontwerp van toekomstige tokenisatiemethoden.

Xuan Shi, Chang Zeng, Tiantian Feng, Shih-Heng Wang, Jianbo Ma, Shrikanth NarayananThu, 12 Ma⚡ eess

FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System

Dit paper introduceert FireRedASR2S, een geavanceerd industriële 'all-in-one' spraakherkenningsysteem dat geïntegreerde modules voor spraakherkenning, spraakdetectie, taalidentificatie en leestekens voorspelling combineert en hiermee state-of-the-art prestaties bereikt op diverse benchmarks.

Kaituo Xu, Yan Jia, Kai Huang, Junjie Chen, Wenpeng Li, Kun Liu, Feng-Long Xie, Xu Tang, Yao HuThu, 12 Ma⚡ eess

G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition

Het paper introduceert G-STAR, een end-to-end systeem dat een tijdbewuste spreker-trackingmodule koppelt aan een Speech-LLM-transcriptiebackbone om tijdgestempelde, spreker-gelabelde transcripties te genereren voor lange, multi-partij gesprekken met overlappingen, terwijl het de consistentie van sprekeridentiteiten op vergaderingsniveau behoudt.

Jing Peng, Ziyi Chen, Haoyu Li, Yucheng Wang, Duo Ma, Mengtian Li, Yunfan Du, Dezhu Xu, Kai Yu, Shuai WangThu, 12 Ma⚡ eess

Geo-ATBench: A Benchmark for Geospatial Audio Tagging with Geospatial Semantic Context

Dit paper introduceert Geo-ATBench, een benchmark en het GeoFusion-AT-framework voor geospatiale audiotagging, die aantonen dat het integreren van geografische semantische context de nauwkeurigheid van geluherkenning verbetert, vooral bij akoestisch vergelijkbare gebeurtenissen.

Yuanbo Hou, Yanru Wu, Qiaoqiao Ren, Shengchen Li, Stephen Roberts, Dick BotteldoorenThu, 12 Ma⚡ eess

MOS-Bias: From Hidden Gender Bias to Gender-Aware Speech Quality Assessment

Dit onderzoek onthult een systematische genderbias in de Mean Opinion Score (MOS) voor spraakkwaliteit, waarbij mannelijke luisteraars consequent hogere scores toekennen dan vrouwelijke luisteraars, en stelt een genderbewust model voor om deze vertekening te corrigeren en eerlijkere evaluaties mogelijk te maken.

Wenze Ren, Yi-Cheng Lin, Wen-Chin Huang, Erica Cooper, Ryandhimas E. Zezario, Hsin-Min Wang, Hung-yi Lee, Yu TsaoThu, 12 Ma⚡ eess

Efficient Emotion and Speaker Adaptation in LLM-Based TTS via Characteristic-Specific Partial Fine-Tuning

Dit artikel introduceert CSP-FT, een efficiënte strategie voor gedeeltelijke fijne afstemming die door selectief slechts twee specifieke lagen van een LLM-gebaseerd TTS-model aan te passen, de spraakherkenning en emotionele expressie verbetert terwijl het trainingsproces twee keer sneller verloopt en het risico op catastrofaal vergeten aanzienlijk wordt verminderd.

Tianrui Wang, Meng Ge, Cheng Gong, Chunyu Qiang, Haoyu Wang, Zikang Huang, Yu Jiang, Ye Ni, Yuheng Lu, Xiaobao Wang, Engsiong Chng, Xie Chen, Longbiao Wang, Jianwu DangMon, 09 Ma💻 cs

The trajectoRIR Database: Room Acoustic Recordings Along a Trajectory of Moving Microphones

Dit artikel introduceert de trajectoRIR-database, een uitgebreide collectie van zowel dynamische als stationaire akoestische opnamen langs een gecontroleerde L-vormige baan in een kamer, die wordt gebruikt voor diverse taken zoals geluidsbronlokalisatie, ruimtelijke reconstructie en auralisatie.

Stefano Damiano, Kathleen MacWilliam, Valerio Lorenzoni, Thomas Dietzen, Toon van WaterschootMon, 09 Ma⚡ eess

ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction

Dit paper introduceert ParaS2S, een nieuw versterkingsleerframework en bijbehorende benchmark die spraak-tot-spraakmodellen optimaliseren voor paralinguïstische cues zoals emotie en toon, waardoor ze significant beter presteren dan eerdere modellen met minder gekoppelde trainingsdata.

Shu-wen Yang, Ming Tu, Andy T. Liu, Xinghua Qu, Hung-yi Lee, Lu Lu, Yuxuan Wang, Yonghui WuMon, 09 Ma⚡ eess

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

Dit paper introduceert een end-to-end framework voor audio-visuele spraakherkenning dat ruisbestendigheid bereikt door spraakverbetering en een Conformer-gebaseerde fusie te gebruiken zonder expliciete maskers, waardoor semantische informatie beter behouden blijft dan bij eerdere methoden.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei YinMon, 09 Ma🤖 cs.AI

The Cascade Equivalence Hypothesis: When Do Speech LLMs Behave Like ASR $\rightarrow$ LLM Pipelines?

Dit paper weerlegt het idee dat spraak-LLM's inherent beter zijn dan ASR-LLM-kaskaders door aan te tonen dat ze in de praktijk vaak inefficiënte kaskaders zijn die bij ruis slechter presteren dan hun tekstuele tegenhangers, aangezien de onderliggende tekstrepresentaties causaal noodzakelijk blijven voor hun redeneervermogen.

Jayadev BillaMon, 09 Ma🤖 cs.AI

LMU-Based Sequential Learning and Posterior Ensemble Fusion for Cross-Domain Infant Cry Classification

Dit paper presenteert een compact acoustisch kader dat MFCC-, STFT- en pitch-kenmerken combineert met een verbeterde Legendre Memory Unit (LMU) en een geposte ensemble-fusie om de cross-domein classificatie van babyhuilen te verbeteren, wat leidt tot betere generalisatie en efficiëntie voor draagbare gezondheidsmonitoring.

Niloofar Jazaeri, Hilmi R. Dajani, Marco Janeczek, Martin BouchardMon, 09 Ma🤖 cs.LG

Whisper-RIR-Mega: A Paired Clean-Reverberant Speech Benchmark for ASR Robustness to Room Acoustics

Dit paper introduceert Whisper-RIR-Mega, een nieuw benchmarkdataset met gekoppelde schone en reverberante spraak om de robuustheid van Whisper-spraakherkenningsmodellen tegen ruimteakoestiek te evalueren en vast te stellen dat reverberatie de prestaties consistent verslechtert.

Mandip GoswamiMon, 09 Ma🤖 cs.AI

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

Het paper introduceert Omni-C, een efficiënte, dichte Transformer-encoder die heterogene modaliteiten comprimeert tot gedeelde representaties zonder MoE-architecturen, waardoor de complexiteit en het geheugengebruik aanzienlijk worden verminderd terwijl de prestaties vergelijkbaar blijven met gespecialiseerde expertmodellen.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de GusmãoMon, 09 Ma🤖 cs.AI

Activation Steering for Accent Adaptation in Speech Foundation Models

Dit artikel introduceert een parameterloze methode voor accentadaptatie in spraakmodellen door accentinformatie te identificeren als een interpreteerbare subruimte in de middelste encoderlagen, waardoor de woordfoutenratio voor diverse accenten aanzienlijk wordt verlaagd zonder de modelgewichten aan te passen.

Jinuo Sun, Yang Xiao, Sung Kyun Chung, Qiuchi Hu, Gongping Huang, Eun-Jung Holden, Ting DangMon, 09 Ma⚡ eess

← Vorige Volgende →

eess.AS