eess.AS Arbeiten | Gist.Science

Textless and Non-Parallel Speech-to-Speech Emotion Style Transfer

Die vorgestellte Arbeit stellt S2S-ZEST vor, ein textloses und nicht-paralleles Framework für das Zero-Shot-Emotionsstil-Transfer, das emotionale Merkmale aus einer Referenz auf eine Quelle überträgt, während Inhalt und Sprecheridentität erhalten bleiben, und dabei sowohl die Leistung als auch Anwendungen zur Daten-Augmentierung demonstriert.

Soumya Dutta, Avni Jain, Sriram GanapathyWed, 11 Ma⚡ eess

Fast-Converging Distributed Signal Estimation in Topology-Unconstrained Wireless Acoustic Sensor Networks

Diese Arbeit stellt den TI-DANSE+-Algorithmus vor, der die langsame Konvergenz des bestehenden TI-DANSE-Ansatzes in drahtlosen akustischen Sensornetzwerken durch die Nutzung partieller Summen und eine Baumschnittstrategie überwindet und dabei die Vorteile des ursprünglichen DANSE-Algorithmus mit einer bandbreiteneffizienteren, topologieunabhängigen Peer-to-Peer-Kommunikation vereint.

Paul Didier, Toon van Waterschoot, Simon Doclo, Jörg Bitzer, Marc MoonenWed, 11 Ma⚡ eess

Human-CLAP: Human-perception-based contrastive language-audio pretraining

Die Arbeit stellt Human-CLAP vor, ein auf menschlicher Wahrnehmung basiertes kontrastives Sprach-Audio-Pretraining-Modell, das die Korrelation zwischen CLAPScore und subjektiven menschlichen Bewertungen im Vergleich zu herkömmlichen CLAP-Modellen signifikant verbessert.

Taisei Takano, Yuki Okamoto, Yusuke Kanamori, Yuki Saito, Ryotaro Nagase, Hiroshi SaruwatariWed, 11 Ma⚡ eess

Benchmarking Humans and Machines on Complex Multilingual Speech Understanding Tasks

Diese Studie stellt ein Paradigma vor, um Menschen und Maschinen bei multilingualen Sprachverständnisaufgaben zu vergleichen, und zeigt, dass Menschen in ihrer Muttersprache eine überlegene selektive Aufmerksamkeit aufweisen, während Sprach-LLMs bei sauberen Eingaben besser abschneiden, aber bei überlagerten Sprachsignalen oft an der Fähigkeit zur selektiven Fokussierung scheitern.

Sai Samrat Kankanala, Ram Chandra, Sriram GanapathyWed, 11 Ma⚡ eess

Evaluating pretrained speech embedding systems for dysarthria detection across heterogenous datasets

Die Studie bewertet 17 vortrainierte Sprachembedding-Systeme zur Erkennung von Dysarthrie über sechs heterogene Datensätze hinweg und zeigt, dass die stark variierenden und oft nicht generalisierbaren Ergebnisse die klinische Validität von Modellen, die nur auf denselben Daten trainiert und getestet wurden, infrage stellen.

Lovisa Wihlborg, Jemima Goodall, David Wheatley, Jacob J. Webber, Johnny Tam, Christine Weaver, Suvankar Pal, Siddharthan Chandran, Sohan Seth, Oliver Watts, Cassia Valentini-BotinhaoWed, 11 Ma⚡ eess

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

Das Papier stellt VSSFlow vor, ein einheitliches Flow-Matching-Framework auf Basis von Diffusion Transformern, das Video-zu-Sound- und Visuelles Text-zu-Sprache-Generierung durch eine neuartige, entkoppelte Bedingungsaggregation erfolgreich vereint und dabei durch gemeinsames Lernen sogar die Leistung spezialisierter State-of-the-Art-Modelle übertrifft.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

VoiceBridge: General Speech Restoration with One-step Latent Bridge Models

Das Paper stellt VoiceBridge vor, ein einstufiges latentes Brückenmodell, das mittels eines energieerhaltenden VAE, eines gemeinsamen neuronalen Priors und eines kombinierten Trainingsansatzes effizient und ohne Distillation hochwertige 48-kHz-Sprache aus vielfältigen Verzerrungen wiederherstellt.

Chi Zhang, Kaiwen Zheng, Zehua Chen, Jun ZhuWed, 11 Ma🤖 cs.AI

Latent Speech-Text Transformer

Das Paper stellt den Latent Speech-Text Transformer (LST) vor, der durch die Aggregation von Sprach-Token zu latenten Patches die Sequenzlängen von Sprache und Text angleicht, was sowohl die Recheneffizienz als auch die Leistung in Sprach- und Textaufgaben im Vergleich zu herkömmlichen autoregressiven Modellen signifikant verbessert.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc LeWed, 11 Ma🤖 cs.AI

Noise-Conditioned Mixture-of-Experts Framework for Robust Speaker Verification

Diese Arbeit stellt ein noise-conditioned Mixture-of-Experts-Framework vor, das durch spezialisierte, rauschbewusste Subräume und ein SNR-abnehmendes Curriculum-Learning die Robustheit der Sprechererkennung unter verschiedenen Störgeräuschen signifikant verbessert.

Bin Gu, Haitao Zhao, Jibo WeiWed, 11 Ma⚡ eess

Modeling strategies for speech enhancement in the latent space of a neural audio codec

Diese Studie zeigt, dass die Vorhersage kontinuierlicher latenter Repräsentationen in Kombination mit einer Feinabstimmung des Encoders die effektivste Strategie für die Sprachverbesserung darstellt, wobei nicht-autoregressive Modelle aufgrund ihres besseren Kompromisses zwischen Qualität und Effizienz den autoregressiven Ansätzen vorzuziehen sind.

Sofiene Kammoun, Xavier Alameda-Pineda, Simon LeglaiveWed, 11 Ma⚡ eess

WhisperVC: Decoupled Cross-Domain Alignment and Speech Generation for Low-Resource Whisper-to-Normal Conversion

Das Paper stellt WhisperVC vor, ein dreistufiges Framework, das durch die Entkopplung der domänenübergreifenden Ausrichtung von der Sprachgenerierung eine hochwertige Umwandlung von geflüstertem in normale Sprache auch mit geringen Datenmengen ermöglicht und dabei sowohl für den Datenschutz als auch für medizinische Rehabilitation geeignet ist.

Dong Liu, Juan Liu, Wei Ju, Yao Tian, Ming LiWed, 11 Ma⚡ eess

Multiplexing Neural Audio Watermarks

Diese Arbeit stellt ein Multiplexing-Paradigma für Audio-Wasserzeichen vor, das durch die Kombination mehrerer Techniken, einschließlich der trainingsfreien PA-TFM und des modellbasierten MaskNet, die Robustheit gegenüber komplexen Verzerrungen und Angriffen im Vergleich zu herkömmlichen Einzelwasserzeichen erheblich verbessert.

Zheqi Yuan, Yucheng Huang, Guangzhi Sun, Zengrui Jin, Chao ZhangWed, 11 Ma⚡ eess

Head, posture, and full-body gestures in unscripted dyadic conversations in noise

Die Studie zeigt, dass sich Sprecher und Zuhörer in lauten Umgebungen durch komplexere Handgesten, modulierte Kopfbewegungen und veränderte Körperhaltungen anpassen, um die Kommunikation zu unterstützen, wobei die Synchronität zwischen Sprache und Gesten bei moderatem Lärm leicht abnimmt.

Luboš Hládek, Bernhard U. SeeberWed, 11 Ma⚡ eess

Rethinking Discrete Speech Representation Tokens for Accent Generation

Diese Arbeit führt die erste systematische Untersuchung zur Kodierung von Akzentinformationen in diskreten Sprachrepräsentationstokens durch und stellt ein einheitliches Evaluierungsframework vor, das zeigt, dass die Schichtauswahl den größten Einfluss hat, ASR-Überwachung die Akzentinformationen erheblich reduziert und eine naive Verkleinerung des Codebooks nicht ausreicht, um Akzente von phonetischen und Sprechereigenschaften zu trennen.

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter BellWed, 11 Ma⚡ eess

Bottleneck Transformer-Based Approach for Improved Automatic STOI Score Prediction

Diese Studie stellt einen neuartigen Ansatz vor, der eine Bottleneck-Transformer-Architektur mit Faltungsblöcken und Multi-Head-Self-Attention nutzt, um die Kurzzeit-Objektiv-Verständlichkeitsmessung (STOI) ohne Referenzsignal genauer vorherzusagen als bisherige State-of-the-Art-Modelle.

Amartyaveer, Murali Kadambi, Chandra Mohan Sharma, Anupam Mondal, Prasanta Kumar GhoshWed, 11 Ma🤖 cs.LG

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

Die Arbeit stellt VoxEmo vor, ein umfassendes Benchmark-Toolkit für die Spracherkennung von Emotionen mit Sprach-LLMs, das durch die Einbeziehung von 35 Korpora in 15 Sprachen, standardisierte Prompt-Strategien und ein weiches Labeling-Verfahren die subjektive Natur menschlicher Emotionen besser abbildet als herkömmliche Ansätze.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

Can You Hear, Localize, and Segment Continually? An Exemplar-Free Continual Learning Benchmark for Audio-Visual Segmentation

Die Arbeit stellt den ersten exemplarfreien Benchmark für kontinuierliches Audio-Visuelles Segmentieren (AVS) vor und schlägt das Modell ATLAS mit Low-Rank Anchoring vor, um das Vergessen bisheriger Aufgaben in dynamischen Umgebungen zu verhindern.

Siddeshwar Raghavan, Gautham Vinod, Bruce Coburn, Fengqing ZhuWed, 11 Ma⚡ eess

Universal Speech Content Factorization

Der Artikel stellt die Universal Speech Content Factorization (USCF) vor, eine einfache und invertierbare lineare Methode, die in einem Open-Set-Szenario phonetischen Inhalt von Sprechereigenschaften trennt und so eine effiziente Zero-Shot-Stimmenkonversion sowie das Training von Text-zu-Sprache-Modellen ermöglicht.

Henry Li Xinyuan, Zexin Cai, Lin Zhang, Leibny Paola García-Perera, Berrak Sisman, Sanjeev Khudanpur, Nicholas Andrews, Matthew WiesnerWed, 11 Ma⚡ eess

Trade-offs Between Capacity and Robustness in Neural Audio Codecs for Adversarially Robust Speech Recognition

Die Studie zeigt, dass bei neuronalen Audio-Codecs für robuste Spracherkennung eine nicht-monotone Trade-off-Beziehung zwischen der Quantisierungs-Tiefe und der Adversarial-Robustanz besteht, wobei mittlere Residual-Vektor-Quantisierungstiefen den optimalen Kompromiss zwischen der Unterdrückung von Störungen und dem Erhalt des Sprachinhalts bieten.

Jordan Prescott, Thanathai Lertpetchpun, Shrikanth NarayananWed, 11 Ma⚡ eess

Emotion-Aware Prefix: Towards Explicit Emotion Control in Voice Conversion Models

Die vorgestellte Arbeit führt den „Emotion-Aware Prefix" ein, eine Methode zur expliziten Emotionssteuerung in Voice-Conversion-Modellen, die die Emotionskonvertierungsgenauigkeit im Vergleich zur Basislinie von 42,40 % auf 85,50 % verdoppelt, ohne dabei die Sprachqualität, die linguistische Integrität oder die Sprecheridentität zu beeinträchtigen.

Haoyuan Yang, Mu Yang, Jiamin Xie, Szu-Jui Chen, John H. L. HansenWed, 11 Ma⚡ eess

Weiter →