Evaluating Parkinson's Disease Detection in Anonymized Speech: A Performance and Acoustic Analysis

Diese Studie zeigt, dass die Erkennung von Parkinson-Krankheit aus anonymisierter Sprache durch den Einsatz des kNN-VC-Verfahrens möglich ist, da es im Gegensatz zum STT-TTS-Ansatz die für die Diagnose entscheidenden prosodischen Merkmale weitgehend erhält und dabei einen akzeptablen Kompromiss zwischen Datenschutz und Diagnosegenauigkeit bietet.

Carlos Franzreb, Francisco Teixeira, Ben Luks, Sebastian Möller, Alberto AbadTue, 10 Ma💻 cs

Targeted Speaker Poisoning Framework in Zero-Shot Text-to-Speech

Diese Arbeit stellt ein neues Problem und Evaluierungsframework namens Speech Generation Speaker Poisoning (SGSP) vor, das darauf abzielt, die Privatsphäre in Zero-Shot-Text-to-Speech-Modellen zu schützen, indem die Generierung spezifischer Sprecheridentitäten verhindert wird, während die Nutzbarkeit für andere Sprecher erhalten bleibt.

Thanapat Trachu, Thanathai Lertpetchpun, Sai Praneeth Karimireddy, Shrikanth NarayananTue, 10 Ma💻 cs

Nw\=ach\=a Mun\=a: A Devanagari Speech Corpus and Proximal Transfer Benchmark for Nepal Bhasha ASR

Diese Arbeit stellt das neu kuratierte Devanagari-Sprachkorpus „Nwāchā Munā" für Nepal Bhasha vor und zeigt, dass ein feinabgestimmtes nepalesisches Conformer-Modell durch proximale Transferlernen die Leistung großer multilingualer Modelle bei der Spracherkennung erreicht und dabei eine rechen-effiziente Alternative für diese unterrepräsentierte Sprache bietet.

Rishikesh Kumar Sharma, Safal Narshing Shrestha, Jenny Poudel, Rupak Tiwari, Arju Shrestha, Rupak Raj Ghimire, Bal Krishna BalTue, 10 Ma💬 cs.CL

Analysis-Driven Procedural Generation of an Engine Sound Dataset with Embedded Control Annotations

Die Autoren stellen einen analysebasierten Rahmen zur Generierung eines öffentlichen Datensatzes mit prozedural erzeugten Motorengeräuschen und präzisen Betriebszustands-Annotationen vor, der durch die Extraktion harmonischer Strukturen aus realen Aufnahmen und deren Weiterverarbeitung in einem parametrischen Synthesizer die Lücke bei kostengünstigen, sauberen Trainingsdaten für die akustische Modellierung und neuronale Synthese schließt.

Robin Doerfler, Lonce WyseTue, 10 Ma🤖 cs.LG

Unsupervised Domain Adaptation for Audio Deepfake Detection with Modular Statistical Transformations

Diese Arbeit stellt eine modulare Pipeline für die unsupervised Domain Adaptation zur Audio-Deepfake-Erkennung vor, die vortrainierte Wav2Vec 2.0-Embeddings mit statistischen Transformationen wie CORAL-Alignment und Merkmalsauswahl kombiniert, um die generalisierende Leistung bei domänenübergreifenden Szenarien ohne gelabelte Ziel-Daten signifikant zu verbessern.

Urawee Thani, Gagandeep Singh, Priyanka SinghTue, 10 Ma💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

Die Arbeit stellt MambaDance vor, einen neuartigen Ansatz zur Tanzgenerierung, der ein Mamba-basiertes Diffusionsmodell mit einer glockenförmigen Beat-Repräsentation kombiniert, um im Vergleich zu Transformer-basierten Methoden längere, rhythmisch präzisere und musikalisch synchronisierte Tanzbewegungen zu erzeugen.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon JooTue, 10 Ma💻 cs

Soundscapes in Spectrograms: Pioneering Multilabel Classification for South Asian Sounds

Diese Studie stellt eine neuartige, auf Spektrogrammen basierende Methode mit einem Convolutional Neural Network (CNN) vor, die bei der multilabel-Klassifizierung von südasiatischen Umgebungsgeräuschen im Vergleich zu herkömmlichen MFCC-Techniken eine deutlich höhere Genauigkeit erzielt.

Sudip Chakrabarty, Pappu Bishwas, Rajdeep Chatterjee, Tathagata Bandyopadhyay, Digonto Biswas, Bibek HowladerTue, 10 Ma💻 cs

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

Diese Arbeit stellt einen neuen Ansatz vor, der die mehrdeutige Emotionserkennung als verteilungsorientiertes Schlussfolgerungsproblem neu formuliert und durch eine mehrdeutigkeitsbewusste Zielfunktion sowie strukturierte Chain-of-Thought-Supervision die reasoning-Fähigkeiten von großen Audio-Sprachmodellen verbessert.

Xiaofeng Yu, Jiaheng Dong, Jean Honorio, Abhirup Ghosh, Hong Jia, Ting DangTue, 10 Ma💻 cs

Are Deep Speech Denoising Models Robust to Adversarial Noise?

Die Studie zeigt, dass aktuelle Deep-Learning-Sprachentstörungssysteme durch psychoakustisch getarnte adversariale Störgeräusche so manipuliert werden können, dass sie unverständlichen Unsinn erzeugen, obwohl die Störungen für Menschen kaum wahrnehmbar sind, was die Notwendigkeit von Gegenmaßnahmen für den Einsatz in sicherheitskritischen Anwendungen unterstreicht.

Will Schwarzer, Neel Chaudhari, Philip S. Thomas, Andrea Fanelli, Xiaoyu LiuThu, 12 Ma⚡ eess