Fast-Converging Distributed Signal Estimation in Topology-Unconstrained Wireless Acoustic Sensor Networks

Dit paper introduceert TI-DANSE+, een verbeterd verspreid algoritme voor signaalschatting in draadloze akoestische sensornetwerken dat, in tegenstelling tot eerdere methoden, sneller convergeert door gebruik te maken van partiële sommen van buren en een boom-inkortingsstrategie, terwijl het tegelijkertijd bandbreedte bespaart en robuust blijft bij verbindingsstoringen.

Paul Didier, Toon van Waterschoot, Simon Doclo, Jörg Bitzer, Marc MoonenWed, 11 Ma⚡ eess

LARA-Gen: Enabling Continuous Emotion Control for Music Generation Models via Latent Affective Representation Alignment

Dit artikel introduceert LARA-Gen, een kader dat continue en fijne emotionele controle mogelijk maakt voor muziekgeneratiemodellen door middel van latent affectieve representatie-uitlijning en een module gebaseerd op de valentie-arousal-ruimte, wat resulteert in superieure prestaties ten opzichte van bestaande methoden.

Jiahao Mei, Xuenan Xu, Zeyu Xie, Zihao Zheng, Ye Tao, Yue Ding, Mengyue WuWed, 11 Ma💻 cs

Modeling strategies for speech enhancement in the latent space of a neural audio codec

Dit onderzoek vergelijkt strategieën voor spraakverbetering in de latente ruimte van neurale audio-codecs en concludeert dat het voorspellen van continue latente representaties, gecombineerd met het fijnafstemmen van de encoder, de beste prestaties levert, hoewel autoregressieve modellen weliswaar hogere kwaliteit maar lagere efficiëntie bieden.

Sofiene Kammoun, Xavier Alameda-Pineda, Simon LeglaiveWed, 11 Ma⚡ eess

Fish Audio S2 Technical Report

Dit paper introduceert Fish Audio S2, een open-source tekst-naar-spraak-systeem dat multi-spreker- en multi-turn-generatie combineert met instructievolgende controle via natuurlijke taal, ondersteund door een schaalbaar trainingsproces en een productieklaar inferentie-engine met een zeer lage latentie.

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei HanWed, 11 Ma🤖 cs.AI

Universal Speech Content Factorization

Dit paper introduceert Universal Speech Content Factorization (USCF), een eenvoudige en omkeerbare lineaire methode die spraakinhoud effectief scheidt van sprekerstijl, waardoor hoogwaardige zero-shot stemconversie en efficiënt training van tekst-naar-spraakmodellen mogelijk zijn zonder uitgebreide neurale training of veel doel-speakersdata.

Henry Li Xinyuan, Zexin Cai, Lin Zhang, Leibny Paola García-Perera, Berrak Sisman, Sanjeev Khudanpur, Nicholas Andrews, Matthew WiesnerWed, 11 Ma⚡ eess

Trade-offs Between Capacity and Robustness in Neural Audio Codecs for Adversarially Robust Speech Recognition

Dit onderzoek toont aan dat er een niet-monotoon compromis bestaat tussen capaciteit en robuustheid in neurale audiocodecs voor spraakherkenning, waarbij een intermediaire diepte van residual vector quantization (RVQ) de beste balans biedt tussen het behoud van spraakinformatie en het onderdrukken van adversariale perturbaties.

Jordan Prescott, Thanathai Lertpetchpun, Shrikanth NarayananWed, 11 Ma⚡ eess