cs.SD Arbeiten | Gist.Science

Textless and Non-Parallel Speech-to-Speech Emotion Style Transfer

Die vorgestellte Arbeit stellt S2S-ZEST vor, ein textloses und nicht-paralleles Framework für das Zero-Shot-Emotionsstil-Transfer, das emotionale Merkmale aus einer Referenz auf eine Quelle überträgt, während Inhalt und Sprecheridentität erhalten bleiben, und dabei sowohl die Leistung als auch Anwendungen zur Daten-Augmentierung demonstriert.

Soumya Dutta, Avni Jain, Sriram GanapathyWed, 11 Ma⚡ eess

Fast-Converging Distributed Signal Estimation in Topology-Unconstrained Wireless Acoustic Sensor Networks

Diese Arbeit stellt den TI-DANSE+-Algorithmus vor, der die langsame Konvergenz des bestehenden TI-DANSE-Ansatzes in drahtlosen akustischen Sensornetzwerken durch die Nutzung partieller Summen und eine Baumschnittstrategie überwindet und dabei die Vorteile des ursprünglichen DANSE-Algorithmus mit einer bandbreiteneffizienteren, topologieunabhängigen Peer-to-Peer-Kommunikation vereint.

Paul Didier, Toon van Waterschoot, Simon Doclo, Jörg Bitzer, Marc MoonenWed, 11 Ma⚡ eess

Human-CLAP: Human-perception-based contrastive language-audio pretraining

Die Arbeit stellt Human-CLAP vor, ein auf menschlicher Wahrnehmung basiertes kontrastives Sprach-Audio-Pretraining-Modell, das die Korrelation zwischen CLAPScore und subjektiven menschlichen Bewertungen im Vergleich zu herkömmlichen CLAP-Modellen signifikant verbessert.

Taisei Takano, Yuki Okamoto, Yusuke Kanamori, Yuki Saito, Ryotaro Nagase, Hiroshi SaruwatariWed, 11 Ma⚡ eess

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

Das Papier stellt VSSFlow vor, ein einheitliches Flow-Matching-Framework auf Basis von Diffusion Transformern, das Video-zu-Sound- und Visuelles Text-zu-Sprache-Generierung durch eine neuartige, entkoppelte Bedingungsaggregation erfolgreich vereint und dabei durch gemeinsames Lernen sogar die Leistung spezialisierter State-of-the-Art-Modelle übertrifft.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

VoiceBridge: General Speech Restoration with One-step Latent Bridge Models

Das Paper stellt VoiceBridge vor, ein einstufiges latentes Brückenmodell, das mittels eines energieerhaltenden VAE, eines gemeinsamen neuronalen Priors und eines kombinierten Trainingsansatzes effizient und ohne Distillation hochwertige 48-kHz-Sprache aus vielfältigen Verzerrungen wiederherstellt.

Chi Zhang, Kaiwen Zheng, Zehua Chen, Jun ZhuWed, 11 Ma🤖 cs.AI

LARA-Gen: Enabling Continuous Emotion Control for Music Generation Models via Latent Affective Representation Alignment

Die Arbeit stellt LARA-Gen vor, ein Framework, das durch die Ausrichtung latenter affektiver Repräsentationen und die Nutzung eines kontinuierlichen Valenz-Arousal-Raums eine präzise, kontinuierliche Emotionssteuerung in Text-zu-Musik-Modellen ermöglicht und dabei Text-Prompts umgeht.

Jiahao Mei, Xuenan Xu, Zeyu Xie, Zihao Zheng, Ye Tao, Yue Ding, Mengyue WuWed, 11 Ma💻 cs

Noise-Conditioned Mixture-of-Experts Framework for Robust Speaker Verification

Diese Arbeit stellt ein noise-conditioned Mixture-of-Experts-Framework vor, das durch spezialisierte, rauschbewusste Subräume und ein SNR-abnehmendes Curriculum-Learning die Robustheit der Sprechererkennung unter verschiedenen Störgeräuschen signifikant verbessert.

Bin Gu, Haitao Zhao, Jibo WeiWed, 11 Ma⚡ eess

Modeling strategies for speech enhancement in the latent space of a neural audio codec

Diese Studie zeigt, dass die Vorhersage kontinuierlicher latenter Repräsentationen in Kombination mit einer Feinabstimmung des Encoders die effektivste Strategie für die Sprachverbesserung darstellt, wobei nicht-autoregressive Modelle aufgrund ihres besseren Kompromisses zwischen Qualität und Effizienz den autoregressiven Ansätzen vorzuziehen sind.

Sofiene Kammoun, Xavier Alameda-Pineda, Simon LeglaiveWed, 11 Ma⚡ eess

Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound

Diese Arbeit stellt mit AV-CDiT und dem AVW-4k-Datensatz das erste formale Rahmenwerk für audiovisuelle Weltmodelle vor, das synchronisierte binaurale Audio- und Visuelle-Dynamiken unter Aktionskontrolle simuliert und so die Leistung von Agenten bei der Navigation verbessert.

Jiahua Wang, Leqi Zheng, Jialong Wu, Yaoxin MaoWed, 11 Ma💻 cs

Head, posture, and full-body gestures in unscripted dyadic conversations in noise

Die Studie zeigt, dass sich Sprecher und Zuhörer in lauten Umgebungen durch komplexere Handgesten, modulierte Kopfbewegungen und veränderte Körperhaltungen anpassen, um die Kommunikation zu unterstützen, wobei die Synchronität zwischen Sprache und Gesten bei moderatem Lärm leicht abnimmt.

Luboš Hládek, Bernhard U. SeeberWed, 11 Ma⚡ eess

Rethinking Discrete Speech Representation Tokens for Accent Generation

Diese Arbeit führt die erste systematische Untersuchung zur Kodierung von Akzentinformationen in diskreten Sprachrepräsentationstokens durch und stellt ein einheitliches Evaluierungsframework vor, das zeigt, dass die Schichtauswahl den größten Einfluss hat, ASR-Überwachung die Akzentinformationen erheblich reduziert und eine naive Verkleinerung des Codebooks nicht ausreicht, um Akzente von phonetischen und Sprechereigenschaften zu trennen.

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter BellWed, 11 Ma⚡ eess

EDMFormer: Genre-Specific Self-Supervised Learning for Music Structure Segmentation

Das Paper stellt EDMFormer vor, ein Transformer-Modell, das durch die Kombination von selbstüberwachtem Lernen mit dem neu eingeführten, professionell annotierten EDM-98-Datensatz und einer genre-spezifischen Taxonomie die Segmentierung der Musikstruktur in elektronischer Tanzmusik, insbesondere bei Drops und Buildups, deutlich verbessert.

Sahal Sajeer, Krish Patel, Oscar Chung, Joel Song BaeWed, 11 Ma🤖 cs.AI

Fish Audio S2 Technical Report

Der technische Bericht stellt Fish Audio S2 vor, ein Open-Source-Text-to-Speech-System, das durch mehrstufiges Training und eine spezielle Datenpipeline eine natürliche Sprachsteuerung, Multi-Speaker-Fähigkeiten und Multi-Turn-Generation ermöglicht und dabei mit einer effizienten SGLang-Inferenz-Engine eine Echtzeitfaktor von 0,195 sowie eine Latenz unter 100 ms erreicht.

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei HanWed, 11 Ma🤖 cs.AI

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

Die Arbeit stellt VoxEmo vor, ein umfassendes Benchmark-Toolkit für die Spracherkennung von Emotionen mit Sprach-LLMs, das durch die Einbeziehung von 35 Korpora in 15 Sprachen, standardisierte Prompt-Strategien und ein weiches Labeling-Verfahren die subjektive Natur menschlicher Emotionen besser abbildet als herkömmliche Ansätze.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

Universal Speech Content Factorization

Der Artikel stellt die Universal Speech Content Factorization (USCF) vor, eine einfache und invertierbare lineare Methode, die in einem Open-Set-Szenario phonetischen Inhalt von Sprechereigenschaften trennt und so eine effiziente Zero-Shot-Stimmenkonversion sowie das Training von Text-zu-Sprache-Modellen ermöglicht.

Henry Li Xinyuan, Zexin Cai, Lin Zhang, Leibny Paola García-Perera, Berrak Sisman, Sanjeev Khudanpur, Nicholas Andrews, Matthew WiesnerWed, 11 Ma⚡ eess

Gender Fairness in Audio Deepfake Detection: Performance and Disparity Analysis

Diese Studie analysiert Geschlechterverzerrungen in Audio-Deepfake-Erkennungsmodellen und zeigt, dass herkömmliche Leistungsmetriken Diskrepanzen in der Fehlerverteilung zwischen den Geschlechtern überdecken, wodurch geschlechtergerechte Evaluierungsmetriken für die Entwicklung fairer und robusterer Systeme unerlässlich sind.

Aishwarya Fursule, Shruti Kshirsagar, Anderson R. AvilaWed, 11 Ma🤖 cs.AI

Trade-offs Between Capacity and Robustness in Neural Audio Codecs for Adversarially Robust Speech Recognition

Die Studie zeigt, dass bei neuronalen Audio-Codecs für robuste Spracherkennung eine nicht-monotone Trade-off-Beziehung zwischen der Quantisierungs-Tiefe und der Adversarial-Robustanz besteht, wobei mittlere Residual-Vektor-Quantisierungstiefen den optimalen Kompromiss zwischen der Unterdrückung von Störungen und dem Erhalt des Sprachinhalts bieten.

Jordan Prescott, Thanathai Lertpetchpun, Shrikanth NarayananWed, 11 Ma⚡ eess

The Costs of Reproducibility in Music Separation Research: a Replication of Band-Split RNN

Diese Arbeit repliziert das Band-Split-RNN-Modell zur Musikquellen-Trennung, um die durch fehlenden Quellcode verursachten Reproduzierbarkeitsprobleme zu analysieren, optimierte Varianten zu entwickeln und die Bedeutung transparenter Forschungspraktiken in der Community zu unterstreichen.

Paul Magron, Romain Serizel, Constance DouwesWed, 11 Ma🤖 cs.LG

How Contrastive Decoding Enhances Large Audio Language Models?

Diese Studie analysiert systematisch vier Kontrastive-Decoding-Strategien für Large Audio Language Models, identifiziert Audio-Aware und Audio Contrastive Decoding als effektivste Methoden und stellt mittels eines Übergangsmatrix-Rahmens fest, dass diese zwar Unsicherheiten und falsche Audio-Negationen korrigieren, aber keine fehlerhaften Schlussfolgerungen beheben können, wodurch sich Leitlinien für die architekturspezifische Eignung ergeben.

Tzu-Quan Lin, Wei-Ping Huang, Yi-Cheng Lin, Hung-yi LeeWed, 11 Ma💬 cs.CL

Paralinguistic Emotion-Aware Validation Timing Detection in Japanese Empathetic Spoken Dialogue

Diese Studie stellt ein paralinguistisches und emotionsbewusstes Modell vor, das ohne Textkontext den optimalen Zeitpunkt für emotionale Validierung in japanischen empathischen Dialogen allein anhand von Sprachmerkmalen erkennt und so die Mensch-Roboter-Interaktion verbessert.

Zi Haur Pang, Yahui Fu, Yuan Gao, Tatsuya KawaharaWed, 11 Ma💻 cs

Weiter →