eess.AS papers | Gist.Science

Textless and Non-Parallel Speech-to-Speech Emotion Style Transfer

Dit artikel introduceert S2S-ZEST, een tekstloos en niet-parallel framework voor zero-shot emotiestijloverdracht dat de emotionele kenmerken van een referentie op een bronstem toepast terwijl de spraakinhoud en sprekeridentiteit behouden blijven.

Soumya Dutta, Avni Jain, Sriram GanapathyWed, 11 Ma⚡ eess

Fast-Converging Distributed Signal Estimation in Topology-Unconstrained Wireless Acoustic Sensor Networks

Dit paper introduceert TI-DANSE+, een verbeterd verspreid algoritme voor signaalschatting in draadloze akoestische sensornetwerken dat, in tegenstelling tot eerdere methoden, sneller convergeert door gebruik te maken van partiële sommen van buren en een boom-inkortingsstrategie, terwijl het tegelijkertijd bandbreedte bespaart en robuust blijft bij verbindingsstoringen.

Paul Didier, Toon van Waterschoot, Simon Doclo, Jörg Bitzer, Marc MoonenWed, 11 Ma⚡ eess

Human-CLAP: Human-perception-based contrastive language-audio pretraining

Dit paper introduceert Human-CLAP, een verbeterd taal-audiomodel dat is getraind op menselijke subjectieve beoordelingen om de zwakke correlatie tussen de bestaande CLAPScore en menselijke perceptie aanzienlijk te verbeteren.

Taisei Takano, Yuki Okamoto, Yusuke Kanamori, Yuki Saito, Ryotaro Nagase, Hiroshi SaruwatariWed, 11 Ma⚡ eess

Benchmarking Humans and Machines on Complex Multilingual Speech Understanding Tasks

Dit onderzoek vergelijkt menselijke en machineprestaties bij meertalige spraakbegrip in complexe akoestische omgevingen en toont aan dat mensen beter presteren in hun moedertaal dankzij selectieve aandacht, terwijl spraak-gestuurde grote taalmodellen (LLMs) weliswaar uitstekend presteren bij schone spraak maar moeite hebben met het selectief focussen op sprekers in gemengde scenario's.

Sai Samrat Kankanala, Ram Chandra, Sriram GanapathyWed, 11 Ma⚡ eess

Evaluating pretrained speech embedding systems for dysarthria detection across heterogenous datasets

Dit artikel presenteert een uitgebreide evaluatie van 17 vooraf getrainde spraakembedding-systemen voor de detectie van dysartrie op zes verschillende datasets, waarbij de auteurs concluderen dat de aanzienlijke variatie in prestaties binnen en tussen datasets vragen opwerpt over de geschiktheid van huidige benchmarks en de klinische validiteit van systemen die op dezelfde dataset zijn getraind en getest.

Lovisa Wihlborg, Jemima Goodall, David Wheatley, Jacob J. Webber, Johnny Tam, Christine Weaver, Suvankar Pal, Siddharthan Chandran, Sohan Seth, Oliver Watts, Cassia Valentini-BotinhaoWed, 11 Ma⚡ eess

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

Dit artikel introduceert VSSFlow, een verenigd flow-matching framework dat video-geconditioneerde geluids- en spraakgeneratie succesvol combineert door middel van een ontward condition-aggregatiemechanisme binnen een Diffusion Transformer-architectuur.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

VoiceBridge: General Speech Restoration with One-step Latent Bridge Models

Dit artikel introduceert VoiceBridge, een efficiënt één-staps latent bridge-model dat diverse spraakhersteltaken, zoals ruisreductie en super-resolutie, verenigt in één generatief proces voor het reconstrueren van hoogwaardige 48 kHz spraak zonder distillatie.

Chi Zhang, Kaiwen Zheng, Zehua Chen, Jun ZhuWed, 11 Ma🤖 cs.AI

Latent Speech-Text Transformer

Dit paper introduceert de Latent Speech-Text Transformer (LST), een model dat spraaktokens aggregeert tot latente patches om de rekenefficiëntie te verbeteren en de prestaties van zowel spraak- als teksttaken te verhogen door de sequentiegranulariteit tussen beide modaliteiten te aligneren.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc LeWed, 11 Ma🤖 cs.AI

Noise-Conditioned Mixture-of-Experts Framework for Robust Speaker Verification

Dit paper introduceert een robuust framework voor sprekerherkenning onder ruisomstandigheden dat gebruikmaakt van een noise-conditioned mixture-of-experts-architectuur met gespecialiseerde netwerken en een curriculumleerprotocol om de prestaties te verbeteren ten opzichte van bestaande methoden.

Bin Gu, Haitao Zhao, Jibo WeiWed, 11 Ma⚡ eess

Modeling strategies for speech enhancement in the latent space of a neural audio codec

Dit onderzoek vergelijkt strategieën voor spraakverbetering in de latente ruimte van neurale audio-codecs en concludeert dat het voorspellen van continue latente representaties, gecombineerd met het fijnafstemmen van de encoder, de beste prestaties levert, hoewel autoregressieve modellen weliswaar hogere kwaliteit maar lagere efficiëntie bieden.

Sofiene Kammoun, Xavier Alameda-Pineda, Simon LeglaiveWed, 11 Ma⚡ eess

WhisperVC: Decoupled Cross-Domain Alignment and Speech Generation for Low-Resource Whisper-to-Normal Conversion

Dit paper introduceert WhisperVC, een drie-staps framework dat kruis-domein uitlijning en spraakgeneratie ontkoppelt om in een low-resource setting fluisterende spraak effectief om te zetten naar normale spraak met behoud van intelligibiliteit, timbre en sprekeridentiteit.

Dong Liu, Juan Liu, Wei Ju, Yao Tian, Ming LiWed, 11 Ma⚡ eess

Multiplexing Neural Audio Watermarks

Dit paper introduceert een multiplexing-paradigma voor audio-watermerken, bestaande uit de trainingsvrije PA-TFM-methode en het modelgebaseerde MaskNet-framework, die door het combineren van meerdere technieken aanzienlijk robuuster zijn dan bestaande single-watermark-oplossingen tegen geavanceerde vervormingen en neurale reconstructie-aanvallen.

Zheqi Yuan, Yucheng Huang, Guangzhi Sun, Zengrui Jin, Chao ZhangWed, 11 Ma⚡ eess

Head, posture, and full-body gestures in unscripted dyadic conversations in noise

Dit onderzoek toont aan dat sprekers en luisteraars in een lawaaierige omgeving hun communicatiegedrag aanpassen door complexere handgebaren, gemoduleerde hoofdbewegingen en verhoogde spraakproductie te gebruiken, terwijl de synchronisatie tussen spraak en gebaren bij matig lawaai licht afneemt.

Luboš Hládek, Bernhard U. SeeberWed, 11 Ma⚡ eess

Rethinking Discrete Speech Representation Tokens for Accent Generation

Dit artikel presenteert het eerste systematische onderzoek naar de codering van accentinformatie in discrete spraakrepresentatietokens en introduceert een unificerend evaluatiekader dat aantoont dat de keuze van lagen de belangrijkste factor is voor het behoud van accentinformatie, terwijl ASR-supervisie deze informatie aanzienlijk vermindert.

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter BellWed, 11 Ma⚡ eess

Bottleneck Transformer-Based Approach for Improved Automatic STOI Score Prediction

Dit paper presenteert een nieuwe bottleneck-transformer-architectuur die frame-niveaueigenschappen leert en informatie aggregeert via multi-head self-attention om de Short-Time Objective Intelligibility (STOI) score nauwkeuriger te voorspellen dan bestaande zelftoezicht-gebaseerde methoden, zonder dat een schoon referentiesignaal nodig is.

Amartyaveer, Murali Kadambi, Chandra Mohan Sharma, Anupam Mondal, Prasanta Kumar GhoshWed, 11 Ma🤖 cs.LG

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

Dit paper introduceert VoxEmo, een uitgebreide benchmark voor spraak-gevoelsherkenning met spraak-LLMs die 35 corpora in 15 talen omvat en een nieuwe evaluatiemethode biedt die rekening houdt met de subjectiviteit en ambiguïteit van menselijke emoties.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

Can You Hear, Localize, and Segment Continually? An Exemplar-Free Continual Learning Benchmark for Audio-Visual Segmentation

Deze paper introduceert het eerste exemplaarvrije benchmark voor voortdurend leren in audio-visuele segmentatie en stelt ATLAS voor, een nieuwe methode die gebruikmaakt van audio-gestuurde pre-fusie en Low-Rank Anchoring om catastrofisch vergeten te voorkomen in dynamische omgevingen.

Siddeshwar Raghavan, Gautham Vinod, Bruce Coburn, Fengqing ZhuWed, 11 Ma⚡ eess

Universal Speech Content Factorization

Dit paper introduceert Universal Speech Content Factorization (USCF), een eenvoudige en omkeerbare lineaire methode die spraakinhoud effectief scheidt van sprekerstijl, waardoor hoogwaardige zero-shot stemconversie en efficiënt training van tekst-naar-spraakmodellen mogelijk zijn zonder uitgebreide neurale training of veel doel-speakersdata.

Henry Li Xinyuan, Zexin Cai, Lin Zhang, Leibny Paola García-Perera, Berrak Sisman, Sanjeev Khudanpur, Nicholas Andrews, Matthew WiesnerWed, 11 Ma⚡ eess

Trade-offs Between Capacity and Robustness in Neural Audio Codecs for Adversarially Robust Speech Recognition

Dit onderzoek toont aan dat er een niet-monotoon compromis bestaat tussen capaciteit en robuustheid in neurale audiocodecs voor spraakherkenning, waarbij een intermediaire diepte van residual vector quantization (RVQ) de beste balans biedt tussen het behoud van spraakinformatie en het onderdrukken van adversariale perturbaties.

Jordan Prescott, Thanathai Lertpetchpun, Shrikanth NarayananWed, 11 Ma⚡ eess

Emotion-Aware Prefix: Towards Explicit Emotion Control in Voice Conversion Models

Deze paper introduceert de 'Emotion-Aware Prefix', een methode voor een twee-staps stemconversie die de emotieconversie-accuraatte verdubbelt van 42,40% naar 85,50% door gezamenlijke controle van sequentiemodulatie en akoestische realisatie, terwijl de spraakkwaliteit en de sprekeridentiteit behouden blijven.

Haoyuan Yang, Mu Yang, Jiamin Xie, Szu-Jui Chen, John H. L. HansenWed, 11 Ma⚡ eess