Fast-Converging Distributed Signal Estimation in Topology-Unconstrained Wireless Acoustic Sensor Networks

Dit paper introduceert TI-DANSE+, een verbeterd verspreid algoritme voor signaalschatting in draadloze akoestische sensornetwerken dat, in tegenstelling tot eerdere methoden, sneller convergeert door gebruik te maken van partiële sommen van buren en een boom-inkortingsstrategie, terwijl het tegelijkertijd bandbreedte bespaart en robuust blijft bij verbindingsstoringen.

Paul Didier, Toon van Waterschoot, Simon Doclo, Jörg Bitzer, Marc MoonenWed, 11 Ma⚡ eess

Benchmarking Humans and Machines on Complex Multilingual Speech Understanding Tasks

Dit onderzoek vergelijkt menselijke en machineprestaties bij meertalige spraakbegrip in complexe akoestische omgevingen en toont aan dat mensen beter presteren in hun moedertaal dankzij selectieve aandacht, terwijl spraak-gestuurde grote taalmodellen (LLMs) weliswaar uitstekend presteren bij schone spraak maar moeite hebben met het selectief focussen op sprekers in gemengde scenario's.

Sai Samrat Kankanala, Ram Chandra, Sriram GanapathyWed, 11 Ma⚡ eess

Evaluating pretrained speech embedding systems for dysarthria detection across heterogenous datasets

Dit artikel presenteert een uitgebreide evaluatie van 17 vooraf getrainde spraakembedding-systemen voor de detectie van dysartrie op zes verschillende datasets, waarbij de auteurs concluderen dat de aanzienlijke variatie in prestaties binnen en tussen datasets vragen opwerpt over de geschiktheid van huidige benchmarks en de klinische validiteit van systemen die op dezelfde dataset zijn getraind en getest.

Lovisa Wihlborg, Jemima Goodall, David Wheatley, Jacob J. Webber, Johnny Tam, Christine Weaver, Suvankar Pal, Siddharthan Chandran, Sohan Seth, Oliver Watts, Cassia Valentini-BotinhaoWed, 11 Ma⚡ eess

Modeling strategies for speech enhancement in the latent space of a neural audio codec

Dit onderzoek vergelijkt strategieën voor spraakverbetering in de latente ruimte van neurale audio-codecs en concludeert dat het voorspellen van continue latente representaties, gecombineerd met het fijnafstemmen van de encoder, de beste prestaties levert, hoewel autoregressieve modellen weliswaar hogere kwaliteit maar lagere efficiëntie bieden.

Sofiene Kammoun, Xavier Alameda-Pineda, Simon LeglaiveWed, 11 Ma⚡ eess

Bottleneck Transformer-Based Approach for Improved Automatic STOI Score Prediction

Dit paper presenteert een nieuwe bottleneck-transformer-architectuur die frame-niveaueigenschappen leert en informatie aggregeert via multi-head self-attention om de Short-Time Objective Intelligibility (STOI) score nauwkeuriger te voorspellen dan bestaande zelftoezicht-gebaseerde methoden, zonder dat een schoon referentiesignaal nodig is.

Amartyaveer, Murali Kadambi, Chandra Mohan Sharma, Anupam Mondal, Prasanta Kumar GhoshWed, 11 Ma🤖 cs.LG

Universal Speech Content Factorization

Dit paper introduceert Universal Speech Content Factorization (USCF), een eenvoudige en omkeerbare lineaire methode die spraakinhoud effectief scheidt van sprekerstijl, waardoor hoogwaardige zero-shot stemconversie en efficiënt training van tekst-naar-spraakmodellen mogelijk zijn zonder uitgebreide neurale training of veel doel-speakersdata.

Henry Li Xinyuan, Zexin Cai, Lin Zhang, Leibny Paola García-Perera, Berrak Sisman, Sanjeev Khudanpur, Nicholas Andrews, Matthew WiesnerWed, 11 Ma⚡ eess

Trade-offs Between Capacity and Robustness in Neural Audio Codecs for Adversarially Robust Speech Recognition

Dit onderzoek toont aan dat er een niet-monotoon compromis bestaat tussen capaciteit en robuustheid in neurale audiocodecs voor spraakherkenning, waarbij een intermediaire diepte van residual vector quantization (RVQ) de beste balans biedt tussen het behoud van spraakinformatie en het onderdrukken van adversariale perturbaties.

Jordan Prescott, Thanathai Lertpetchpun, Shrikanth NarayananWed, 11 Ma⚡ eess