cs.SD papers | Gist.Science

Textless and Non-Parallel Speech-to-Speech Emotion Style Transfer

Dit artikel introduceert S2S-ZEST, een tekstloos en niet-parallel framework voor zero-shot emotiestijloverdracht dat de emotionele kenmerken van een referentie op een bronstem toepast terwijl de spraakinhoud en sprekeridentiteit behouden blijven.

Soumya Dutta, Avni Jain, Sriram GanapathyWed, 11 Ma⚡ eess

Fast-Converging Distributed Signal Estimation in Topology-Unconstrained Wireless Acoustic Sensor Networks

Dit paper introduceert TI-DANSE+, een verbeterd verspreid algoritme voor signaalschatting in draadloze akoestische sensornetwerken dat, in tegenstelling tot eerdere methoden, sneller convergeert door gebruik te maken van partiële sommen van buren en een boom-inkortingsstrategie, terwijl het tegelijkertijd bandbreedte bespaart en robuust blijft bij verbindingsstoringen.

Paul Didier, Toon van Waterschoot, Simon Doclo, Jörg Bitzer, Marc MoonenWed, 11 Ma⚡ eess

Human-CLAP: Human-perception-based contrastive language-audio pretraining

Dit paper introduceert Human-CLAP, een verbeterd taal-audiomodel dat is getraind op menselijke subjectieve beoordelingen om de zwakke correlatie tussen de bestaande CLAPScore en menselijke perceptie aanzienlijk te verbeteren.

Taisei Takano, Yuki Okamoto, Yusuke Kanamori, Yuki Saito, Ryotaro Nagase, Hiroshi SaruwatariWed, 11 Ma⚡ eess

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

Dit artikel introduceert VSSFlow, een verenigd flow-matching framework dat video-geconditioneerde geluids- en spraakgeneratie succesvol combineert door middel van een ontward condition-aggregatiemechanisme binnen een Diffusion Transformer-architectuur.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

VoiceBridge: General Speech Restoration with One-step Latent Bridge Models

Dit artikel introduceert VoiceBridge, een efficiënt één-staps latent bridge-model dat diverse spraakhersteltaken, zoals ruisreductie en super-resolutie, verenigt in één generatief proces voor het reconstrueren van hoogwaardige 48 kHz spraak zonder distillatie.

Chi Zhang, Kaiwen Zheng, Zehua Chen, Jun ZhuWed, 11 Ma🤖 cs.AI

LARA-Gen: Enabling Continuous Emotion Control for Music Generation Models via Latent Affective Representation Alignment

Dit artikel introduceert LARA-Gen, een kader dat continue en fijne emotionele controle mogelijk maakt voor muziekgeneratiemodellen door middel van latent affectieve representatie-uitlijning en een module gebaseerd op de valentie-arousal-ruimte, wat resulteert in superieure prestaties ten opzichte van bestaande methoden.

Jiahao Mei, Xuenan Xu, Zeyu Xie, Zihao Zheng, Ye Tao, Yue Ding, Mengyue WuWed, 11 Ma💻 cs

Noise-Conditioned Mixture-of-Experts Framework for Robust Speaker Verification

Dit paper introduceert een robuust framework voor sprekerherkenning onder ruisomstandigheden dat gebruikmaakt van een noise-conditioned mixture-of-experts-architectuur met gespecialiseerde netwerken en een curriculumleerprotocol om de prestaties te verbeteren ten opzichte van bestaande methoden.

Bin Gu, Haitao Zhao, Jibo WeiWed, 11 Ma⚡ eess

Modeling strategies for speech enhancement in the latent space of a neural audio codec

Dit onderzoek vergelijkt strategieën voor spraakverbetering in de latente ruimte van neurale audio-codecs en concludeert dat het voorspellen van continue latente representaties, gecombineerd met het fijnafstemmen van de encoder, de beste prestaties levert, hoewel autoregressieve modellen weliswaar hogere kwaliteit maar lagere efficiëntie bieden.

Sofiene Kammoun, Xavier Alameda-Pineda, Simon LeglaiveWed, 11 Ma⚡ eess

Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound

Dit paper introduceert het eerste formele kader voor audio-visuele wereldmodellen, inclusief het AVW-4k dataset en het AV-CDiT-model, om agents in staat te stellen toekomstige multimodale toestanden te simuleren en zo hun prestaties bij navigatie significant te verbeteren.

Jiahua Wang, Leqi Zheng, Jialong Wu, Yaoxin MaoWed, 11 Ma💻 cs

Head, posture, and full-body gestures in unscripted dyadic conversations in noise

Dit onderzoek toont aan dat sprekers en luisteraars in een lawaaierige omgeving hun communicatiegedrag aanpassen door complexere handgebaren, gemoduleerde hoofdbewegingen en verhoogde spraakproductie te gebruiken, terwijl de synchronisatie tussen spraak en gebaren bij matig lawaai licht afneemt.

Luboš Hládek, Bernhard U. SeeberWed, 11 Ma⚡ eess

Rethinking Discrete Speech Representation Tokens for Accent Generation

Dit artikel presenteert het eerste systematische onderzoek naar de codering van accentinformatie in discrete spraakrepresentatietokens en introduceert een unificerend evaluatiekader dat aantoont dat de keuze van lagen de belangrijkste factor is voor het behoud van accentinformatie, terwijl ASR-supervisie deze informatie aanzienlijk vermindert.

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter BellWed, 11 Ma⚡ eess

EDMFormer: Genre-Specific Self-Supervised Learning for Music Structure Segmentation

Deze paper introduceert EDMFormer, een transformer-model dat gebruikmaakt van zelftoezicht en een specifiek EDM-dataset (EDM-98) om de zwakke prestaties van bestaande modellen bij het segmenteren van elektronische dansmuziek te overwinnen door zich te richten op energie-, ritme- en timbre-veranderingen in plaats van op tekst of harmonie.

Sahal Sajeer, Krish Patel, Oscar Chung, Joel Song BaeWed, 11 Ma🤖 cs.AI

Fish Audio S2 Technical Report

Dit paper introduceert Fish Audio S2, een open-source tekst-naar-spraak-systeem dat multi-spreker- en multi-turn-generatie combineert met instructievolgende controle via natuurlijke taal, ondersteund door een schaalbaar trainingsproces en een productieklaar inferentie-engine met een zeer lage latentie.

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei HanWed, 11 Ma🤖 cs.AI

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

Dit paper introduceert VoxEmo, een uitgebreide benchmark voor spraak-gevoelsherkenning met spraak-LLMs die 35 corpora in 15 talen omvat en een nieuwe evaluatiemethode biedt die rekening houdt met de subjectiviteit en ambiguïteit van menselijke emoties.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

Universal Speech Content Factorization

Dit paper introduceert Universal Speech Content Factorization (USCF), een eenvoudige en omkeerbare lineaire methode die spraakinhoud effectief scheidt van sprekerstijl, waardoor hoogwaardige zero-shot stemconversie en efficiënt training van tekst-naar-spraakmodellen mogelijk zijn zonder uitgebreide neurale training of veel doel-speakersdata.

Henry Li Xinyuan, Zexin Cai, Lin Zhang, Leibny Paola García-Perera, Berrak Sisman, Sanjeev Khudanpur, Nicholas Andrews, Matthew WiesnerWed, 11 Ma⚡ eess

Gender Fairness in Audio Deepfake Detection: Performance and Disparity Analysis

Dit artikel analyseert genderbias in audio-deepfake-detectiemodellen met behulp van de ASVspoof 5-dataset en toont aan dat eerlijkheidsmetrieken essentiële inzichten bieden in demografische ongelijkheden die door traditionele prestatie-indicatoren worden gemaskeerd.

Aishwarya Fursule, Shruti Kshirsagar, Anderson R. AvilaWed, 11 Ma🤖 cs.AI

Trade-offs Between Capacity and Robustness in Neural Audio Codecs for Adversarially Robust Speech Recognition

Dit onderzoek toont aan dat er een niet-monotoon compromis bestaat tussen capaciteit en robuustheid in neurale audiocodecs voor spraakherkenning, waarbij een intermediaire diepte van residual vector quantization (RVQ) de beste balans biedt tussen het behoud van spraakinformatie en het onderdrukken van adversariale perturbaties.

Jordan Prescott, Thanathai Lertpetchpun, Shrikanth NarayananWed, 11 Ma⚡ eess

The Costs of Reproducibility in Music Separation Research: a Replication of Band-Split RNN

Deze studie repliceert het Band-Split RNN-model voor muziekscheiding om de kosten van reproduceerbaarheid te analyseren, waarbij de auteurs ondanks het niet kunnen reproduceren van de originele resultaten een geoptimaliseerd model ontwikkelen en pleiten voor meer transparantie en open source-praktijken binnen de gemeenschap.

Paul Magron, Romain Serizel, Constance DouwesWed, 11 Ma🤖 cs.LG

How Contrastive Decoding Enhances Large Audio Language Models?

Deze studie toont aan dat Contrastive Decoding de prestaties van grote audio-taalmodellen verbetert door specifieke inferentiefouten te corrigeren, waarbij de effectiviteit echter afhangt van het model en de gekozen strategie, zoals in kaart gebracht door een nieuw Transition Matrix-framework.

Tzu-Quan Lin, Wei-Ping Huang, Yi-Cheng Lin, Hung-yi LeeWed, 11 Ma💬 cs.CL

Paralinguistic Emotion-Aware Validation Timing Detection in Japanese Empathetic Spoken Dialogue

Dit onderzoek presenteert een model dat paralinguistische en emotionele spraakinformatie combineert om het juiste moment voor emotionele validatie in Japanse empathische gesprekken te detecteren zonder gebruik te maken van tekstuele context, waardoor de empathische interactie tussen mens en robot kan worden verbeterd.

Zi Haur Pang, Yahui Fu, Yuan Gao, Tatsuya KawaharaWed, 11 Ma💻 cs