Fast-Converging Distributed Signal Estimation in Topology-Unconstrained Wireless Acoustic Sensor Networks

Diese Arbeit stellt den TI-DANSE+-Algorithmus vor, der die langsame Konvergenz des bestehenden TI-DANSE-Ansatzes in drahtlosen akustischen Sensornetzwerken durch die Nutzung partieller Summen und eine Baumschnittstrategie überwindet und dabei die Vorteile des ursprünglichen DANSE-Algorithmus mit einer bandbreiteneffizienteren, topologieunabhängigen Peer-to-Peer-Kommunikation vereint.

Paul Didier, Toon van Waterschoot, Simon Doclo, Jörg Bitzer, Marc MoonenWed, 11 Ma⚡ eess

Benchmarking Humans and Machines on Complex Multilingual Speech Understanding Tasks

Diese Studie stellt ein Paradigma vor, um Menschen und Maschinen bei multilingualen Sprachverständnisaufgaben zu vergleichen, und zeigt, dass Menschen in ihrer Muttersprache eine überlegene selektive Aufmerksamkeit aufweisen, während Sprach-LLMs bei sauberen Eingaben besser abschneiden, aber bei überlagerten Sprachsignalen oft an der Fähigkeit zur selektiven Fokussierung scheitern.

Sai Samrat Kankanala, Ram Chandra, Sriram GanapathyWed, 11 Ma⚡ eess

Evaluating pretrained speech embedding systems for dysarthria detection across heterogenous datasets

Die Studie bewertet 17 vortrainierte Sprachembedding-Systeme zur Erkennung von Dysarthrie über sechs heterogene Datensätze hinweg und zeigt, dass die stark variierenden und oft nicht generalisierbaren Ergebnisse die klinische Validität von Modellen, die nur auf denselben Daten trainiert und getestet wurden, infrage stellen.

Lovisa Wihlborg, Jemima Goodall, David Wheatley, Jacob J. Webber, Johnny Tam, Christine Weaver, Suvankar Pal, Siddharthan Chandran, Sohan Seth, Oliver Watts, Cassia Valentini-BotinhaoWed, 11 Ma⚡ eess

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

Das Papier stellt VSSFlow vor, ein einheitliches Flow-Matching-Framework auf Basis von Diffusion Transformern, das Video-zu-Sound- und Visuelles Text-zu-Sprache-Generierung durch eine neuartige, entkoppelte Bedingungsaggregation erfolgreich vereint und dabei durch gemeinsames Lernen sogar die Leistung spezialisierter State-of-the-Art-Modelle übertrifft.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

Latent Speech-Text Transformer

Das Paper stellt den Latent Speech-Text Transformer (LST) vor, der durch die Aggregation von Sprach-Token zu latenten Patches die Sequenzlängen von Sprache und Text angleicht, was sowohl die Recheneffizienz als auch die Leistung in Sprach- und Textaufgaben im Vergleich zu herkömmlichen autoregressiven Modellen signifikant verbessert.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc LeWed, 11 Ma🤖 cs.AI

Modeling strategies for speech enhancement in the latent space of a neural audio codec

Diese Studie zeigt, dass die Vorhersage kontinuierlicher latenter Repräsentationen in Kombination mit einer Feinabstimmung des Encoders die effektivste Strategie für die Sprachverbesserung darstellt, wobei nicht-autoregressive Modelle aufgrund ihres besseren Kompromisses zwischen Qualität und Effizienz den autoregressiven Ansätzen vorzuziehen sind.

Sofiene Kammoun, Xavier Alameda-Pineda, Simon LeglaiveWed, 11 Ma⚡ eess

WhisperVC: Decoupled Cross-Domain Alignment and Speech Generation for Low-Resource Whisper-to-Normal Conversion

Das Paper stellt WhisperVC vor, ein dreistufiges Framework, das durch die Entkopplung der domänenübergreifenden Ausrichtung von der Sprachgenerierung eine hochwertige Umwandlung von geflüstertem in normale Sprache auch mit geringen Datenmengen ermöglicht und dabei sowohl für den Datenschutz als auch für medizinische Rehabilitation geeignet ist.

Dong Liu, Juan Liu, Wei Ju, Yao Tian, Ming LiWed, 11 Ma⚡ eess

Rethinking Discrete Speech Representation Tokens for Accent Generation

Diese Arbeit führt die erste systematische Untersuchung zur Kodierung von Akzentinformationen in diskreten Sprachrepräsentationstokens durch und stellt ein einheitliches Evaluierungsframework vor, das zeigt, dass die Schichtauswahl den größten Einfluss hat, ASR-Überwachung die Akzentinformationen erheblich reduziert und eine naive Verkleinerung des Codebooks nicht ausreicht, um Akzente von phonetischen und Sprechereigenschaften zu trennen.

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter BellWed, 11 Ma⚡ eess

Universal Speech Content Factorization

Der Artikel stellt die Universal Speech Content Factorization (USCF) vor, eine einfache und invertierbare lineare Methode, die in einem Open-Set-Szenario phonetischen Inhalt von Sprechereigenschaften trennt und so eine effiziente Zero-Shot-Stimmenkonversion sowie das Training von Text-zu-Sprache-Modellen ermöglicht.

Henry Li Xinyuan, Zexin Cai, Lin Zhang, Leibny Paola García-Perera, Berrak Sisman, Sanjeev Khudanpur, Nicholas Andrews, Matthew WiesnerWed, 11 Ma⚡ eess

Trade-offs Between Capacity and Robustness in Neural Audio Codecs for Adversarially Robust Speech Recognition

Die Studie zeigt, dass bei neuronalen Audio-Codecs für robuste Spracherkennung eine nicht-monotone Trade-off-Beziehung zwischen der Quantisierungs-Tiefe und der Adversarial-Robustanz besteht, wobei mittlere Residual-Vektor-Quantisierungstiefen den optimalen Kompromiss zwischen der Unterdrückung von Störungen und dem Erhalt des Sprachinhalts bieten.

Jordan Prescott, Thanathai Lertpetchpun, Shrikanth NarayananWed, 11 Ma⚡ eess

Emotion-Aware Prefix: Towards Explicit Emotion Control in Voice Conversion Models

Die vorgestellte Arbeit führt den „Emotion-Aware Prefix" ein, eine Methode zur expliziten Emotionssteuerung in Voice-Conversion-Modellen, die die Emotionskonvertierungsgenauigkeit im Vergleich zur Basislinie von 42,40 % auf 85,50 % verdoppelt, ohne dabei die Sprachqualität, die linguistische Integrität oder die Sprecheridentität zu beeinträchtigen.

Haoyuan Yang, Mu Yang, Jiamin Xie, Szu-Jui Chen, John H. L. HansenWed, 11 Ma⚡ eess