Targeted Speaker Poisoning Framework in Zero-Shot Text-to-Speech

Deze paper introduceert een nieuw raamwerk voor 'Speech Generation Speaker Poisoning' om de privacyrisico's van zero-shot tekst-naar-spraakmodellen te beperken door specifieke stemidentiteiten te verwijderen, waarbij wordt aangetoond dat dit effectief werkt voor tot 15 sprekers maar schaalbaarheidsproblemen ondervindt bij 100 sprekers.

Thanapat Trachu, Thanathai Lertpetchpun, Sai Praneeth Karimireddy, Shrikanth NarayananTue, 10 Ma💻 cs

Nw\=ach\=a Mun\=a: A Devanagari Speech Corpus and Proximal Transfer Benchmark for Nepal Bhasha ASR

De auteurs presenteren Nwāchā Munā, een nieuw spraakcorpus en benchmark voor de bedreigde Nepal Bhasha-taal, en tonen aan dat effectieve spraakherkenning mogelijk is door middel van computerefficiënte, taalkundig nabije transfer van het Nepalees, in plaats van zware meertalige modellen.

Rishikesh Kumar Sharma, Safal Narshing Shrestha, Jenny Poudel, Rupak Tiwari, Arju Shrestha, Rupak Raj Ghimire, Bal Krishna BalTue, 10 Ma💬 cs.CL

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

Deze paper introduceert MambaDance, een nieuwe aanpak voor het genereren van dansbewegingen die een op Mamba gebaseerd diffusiemodel en een Gaussische beat-representatie combineert om langere, ritmisch coherente en muziekgesynchroniseerde dansen te creëren die de beperkingen van bestaande Transformer-methoden overwinnen.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon JooTue, 10 Ma💻 cs

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

Dit artikel introduceert een raamwerk voor grote audio-taalmodellen dat dubbelzinnige spraakemotieherkenning behandelt als een distributief redeneerprobleem door een ambiguiteitsbewust doel en gestructureerde chain-of-thought-supervisie te combineren, wat leidt tot consistente prestatieverbeteringen op benchmarkdatasets.

Xiaofeng Yu, Jiaheng Dong, Jean Honorio, Abhirup Ghosh, Hong Jia, Ting DangTue, 10 Ma💻 cs