cs.SD Arbeiten | Gist.Science

Towards Lightweight Adaptation of Speech Enhancement Models in Real-World Environments

Diese Arbeit stellt einen leichten Rahmen vor, der durch selbstüberwachtes Training von Low-Rank-Adaptern an einem eingefrorenen Backbone weniger als 1 % der Parameter aktualisiert und so Speech-Enhancement-Modelle für den effizienten Einsatz in Echtzeit-Umgebungen mit dynamischen akustischen Szenen optimiert.

Longbiao Cheng, Shih-Chii LiuTue, 10 Ma🤖 cs.LG

Evaluating Parkinson's Disease Detection in Anonymized Speech: A Performance and Acoustic Analysis

Diese Studie zeigt, dass die Erkennung von Parkinson-Krankheit aus anonymisierter Sprache durch den Einsatz des kNN-VC-Verfahrens möglich ist, da es im Gegensatz zum STT-TTS-Ansatz die für die Diagnose entscheidenden prosodischen Merkmale weitgehend erhält und dabei einen akzeptablen Kompromiss zwischen Datenschutz und Diagnosegenauigkeit bietet.

Carlos Franzreb, Francisco Teixeira, Ben Luks, Sebastian Möller, Alberto AbadTue, 10 Ma💻 cs

Targeted Speaker Poisoning Framework in Zero-Shot Text-to-Speech

Diese Arbeit stellt ein neues Problem und Evaluierungsframework namens Speech Generation Speaker Poisoning (SGSP) vor, das darauf abzielt, die Privatsphäre in Zero-Shot-Text-to-Speech-Modellen zu schützen, indem die Generierung spezifischer Sprecheridentitäten verhindert wird, während die Nutzbarkeit für andere Sprecher erhalten bleibt.

Thanapat Trachu, Thanathai Lertpetchpun, Sai Praneeth Karimireddy, Shrikanth NarayananTue, 10 Ma💻 cs

Nw\=ach\=a Mun\=a: A Devanagari Speech Corpus and Proximal Transfer Benchmark for Nepal Bhasha ASR

Diese Arbeit stellt das neu kuratierte Devanagari-Sprachkorpus „Nwāchā Munā" für Nepal Bhasha vor und zeigt, dass ein feinabgestimmtes nepalesisches Conformer-Modell durch proximale Transferlernen die Leistung großer multilingualer Modelle bei der Spracherkennung erreicht und dabei eine rechen-effiziente Alternative für diese unterrepräsentierte Sprache bietet.

Rishikesh Kumar Sharma, Safal Narshing Shrestha, Jenny Poudel, Rupak Tiwari, Arju Shrestha, Rupak Raj Ghimire, Bal Krishna BalTue, 10 Ma💬 cs.CL

Analysis-Driven Procedural Generation of an Engine Sound Dataset with Embedded Control Annotations

Die Autoren stellen einen analysebasierten Rahmen zur Generierung eines öffentlichen Datensatzes mit prozedural erzeugten Motorengeräuschen und präzisen Betriebszustands-Annotationen vor, der durch die Extraktion harmonischer Strukturen aus realen Aufnahmen und deren Weiterverarbeitung in einem parametrischen Synthesizer die Lücke bei kostengünstigen, sauberen Trainingsdaten für die akustische Modellierung und neuronale Synthese schließt.

Robin Doerfler, Lonce WyseTue, 10 Ma🤖 cs.LG

VoiceSHIELD-Small: Real-Time Malicious Speech Detection and Transcription

Die Arbeit stellt VoiceSHIELD-Small vor, ein leichtgewichtiges Echtzeit-Modell auf Basis von Whisper-small, das gleichzeitig Sprache transkribiert und schädliche Eingaben mit einer Genauigkeit von 99,16 % erkennt, um Sicherheitsrisiken bei Sprachschnittstellen zu minimieren.

Sumit Ranjan, Sugandha Sharma, Ubaid Abbas, Puneeth N AilTue, 10 Ma💻 cs

SoundWeaver: Semantic Warm-Starting for Text-to-Audio Diffusion Serving

SoundWeaver ist ein trainingfreies, modellunabhängiges Serving-System, das die Latenz von Text-zu-Audio-Diffusionsmodellen durch das Warm-Starten mit semantisch ähnlichen, zwischengespeicherten Audiodaten um das 1,8- bis 3,0-Fache reduziert, ohne die wahrgenommene Klangqualität zu beeinträchtigen.

Ayush Barik, Sofia Stoica, Nikhil Sarda, Arnav Kethana, Abhinav Khanduja, Muchen Xu, Fan LaiTue, 10 Ma💻 cs

Unsupervised Domain Adaptation for Audio Deepfake Detection with Modular Statistical Transformations

Diese Arbeit stellt eine modulare Pipeline für die unsupervised Domain Adaptation zur Audio-Deepfake-Erkennung vor, die vortrainierte Wav2Vec 2.0-Embeddings mit statistischen Transformationen wie CORAL-Alignment und Merkmalsauswahl kombiniert, um die generalisierende Leistung bei domänenübergreifenden Szenarien ohne gelabelte Ziel-Daten signifikant zu verbessern.

Urawee Thani, Gagandeep Singh, Priyanka SinghTue, 10 Ma💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

Die Arbeit stellt MambaDance vor, einen neuartigen Ansatz zur Tanzgenerierung, der ein Mamba-basiertes Diffusionsmodell mit einer glockenförmigen Beat-Repräsentation kombiniert, um im Vergleich zu Transformer-basierten Methoden längere, rhythmisch präzisere und musikalisch synchronisierte Tanzbewegungen zu erzeugen.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon JooTue, 10 Ma💻 cs

WhispEar: A Bi-directional Framework for Scaling Whispered Speech Conversion via Pseudo-Parallel Whisper Generation

Das Paper stellt WhispEar vor, ein bidirektionales Framework, das mithilfe eines Normal-zu-Flüstern-Modells zur Erzeugung pseudo-paralleler Daten und eines neu veröffentlichten bilingualen Korpus die Herausforderungen der Umwandlung von Flüstern in normale Sprache überwindet.

Zihao Fang, Yingda Shen, Zifan Guan, Tongtong Song, Zhenyi Liu, Zhizheng WuTue, 10 Ma💻 cs

PathBench: Speech Intelligibility Benchmark for Automatic Pathological Speech Assessment

Die Arbeit stellt PathBench vor, ein einheitliches Benchmark-System für die Bewertung der Sprachverständlichkeit bei pathologischen Störungen, das verschiedene Methoden auf öffentlichen Datensätzen vergleicht und mit dem neu eingeführten DArtP-Verfahren einen neuen Referenzstandard setzt.

Bence Mark Halpern, Thomas Tienkamp, Defne Abur, Tomoki TodaTue, 10 Ma💻 cs

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

Der Artikel stellt FoleyFlow vor, ein neues Modell zur koordinierten Video-zu-Audio-Generierung, das durch einen Maskierungsansatz zur semantischen und rhythmischen Ausrichtung sowie einen dynamischen bedingten Fluss für eine zeitlich präzise Synchronisation übertrifft bestehende Methoden.

Shentong Mo, Yibing SongTue, 10 Ma🤖 cs.LG

Soundscapes in Spectrograms: Pioneering Multilabel Classification for South Asian Sounds

Diese Studie stellt eine neuartige, auf Spektrogrammen basierende Methode mit einem Convolutional Neural Network (CNN) vor, die bei der multilabel-Klassifizierung von südasiatischen Umgebungsgeräuschen im Vergleich zu herkömmlichen MFCC-Techniken eine deutlich höhere Genauigkeit erzielt.

Sudip Chakrabarty, Pappu Bishwas, Rajdeep Chatterjee, Tathagata Bandyopadhyay, Digonto Biswas, Bibek HowladerTue, 10 Ma💻 cs

Evolution Strategy-Based Calibration for Low-Bit Quantization of Speech Models

Das Papier stellt ESC vor, eine kalibrierungsmethode auf Basis von Evolutionsstrategien, die die spezifischen Herausforderungen von Audio-Aktivierungen bei der Low-Bit-Quantisierung adressiert und erstmals nahezu verlustfreie INT4-Quantisierung sowie volle INT8-Leistung für Sprachmodelle ermöglicht.

Lucas RakotoarivonyTue, 10 Ma💻 cs

DualTurn: Learning Turn-Taking from Dual-Channel Generative Speech Pretraining

Das Paper stellt DualTurn vor, ein Modell, das durch generatives Vortraining auf dualkanaliger Konversationsaudio natürliche Gesprächsdynamiken lernt und so überlegene Vorhersagen für Gesprächswechsel ermöglicht, ohne auf unnatürliche Stille-Timeouts angewiesen zu sein.

Shangeth RajaaTue, 10 Ma💬 cs.CL

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

Diese Arbeit stellt einen neuen Ansatz vor, der die mehrdeutige Emotionserkennung als verteilungsorientiertes Schlussfolgerungsproblem neu formuliert und durch eine mehrdeutigkeitsbewusste Zielfunktion sowie strukturierte Chain-of-Thought-Supervision die reasoning-Fähigkeiten von großen Audio-Sprachmodellen verbessert.

Xiaofeng Yu, Jiaheng Dong, Jean Honorio, Abhirup Ghosh, Hong Jia, Ting DangTue, 10 Ma💻 cs

Scalable Neural Vocoder from Range-Null Space Decomposition

Dieses Paper stellt einen neuartigen, skalierbaren neuronalen Vocoder im Zeit-Frequenz-Bereich vor, der die Range-Null-Space-Zerlegung mit einem dualen Pfad-Netzwerk kombiniert, um transparente, leichtgewichtige Modelle mit State-of-the-Art-Leistung und flexibler Anpassungsfähigkeit an verschiedene Eingabekonfigurationen zu erreichen.

Andong Li, Tong Lei, Zhihang Sun, Rilin Chen, Xiaodong Li, Dong Yu, Chengshi ZhengTue, 10 Ma💻 cs

Benchmarking Language Modeling for Lossless Compression of Full-Fidelity Audio

Die Studie stellt mit „Trilobyte" ein neues Byte-Level-Tokenisierungsschema vor, das den Einsatz autoregressiver Sprachmodelle für verlustfreie Kompression von hochauflösendem 24-Bit-Audio ermöglicht und dabei zwar FLAC übertrifft, jedoch mit abnehmenden Kompressionsgewinnen bei steigender Bittiefe konfrontiert ist.

Phillip Long, Zachary Novack, Chris DonahueTue, 10 Ma🤖 cs.LG

Are Deep Speech Denoising Models Robust to Adversarial Noise?

Die Studie zeigt, dass aktuelle Deep-Learning-Sprachentstörungssysteme durch psychoakustisch getarnte adversariale Störgeräusche so manipuliert werden können, dass sie unverständlichen Unsinn erzeugen, obwohl die Störungen für Menschen kaum wahrnehmbar sind, was die Notwendigkeit von Gegenmaßnahmen für den Einsatz in sicherheitskritischen Anwendungen unterstreicht.

Will Schwarzer, Neel Chaudhari, Philip S. Thomas, Andrea Fanelli, Xiaoyu LiuThu, 12 Ma⚡ eess

Robust Audio-Visual Target Speaker Extraction with Emotion-Aware Multiple Enrollment Fusion

Diese Arbeit zeigt, dass das Training mit hohen Ausfallraten von Modalitäten die Robustheit eines Emotions-bewussten, Multi-Enrollment-Fusionsmodells für die audio-visuelle Zielsprecherextraktion signifikant verbessert und so auch bei unvorhergesehenen Signalverlusten stabile Leistung gewährleistet.

Zhan Jin, Bang Zeng, Peijun Yang, Jiarong Du, Wei Ju, Yao Tian, Juan Liu, Ming LiThu, 12 Ma⚡ eess

← Zurück Weiter →