Evaluating Parkinson's Disease Detection in Anonymized Speech: A Performance and Acoustic Analysis

Lo studio valuta il compromesso tra privacy e rilevamento del morbo di Parkinson nella voce, dimostrando che l'anonimizzazione tramite kNN-VC, pur proteggendo l'identità, preserva sufficienti caratteristiche acustiche per mantenere un'alta accuratezza diagnostica, a differenza del metodo STT-TTS che degrada le prestazioni eliminando le informazioni prosodiche.

Carlos Franzreb, Francisco Teixeira, Ben Luks, Sebastian Möller, Alberto AbadTue, 10 Ma💻 cs

Nw\=ach\=a Mun\=a: A Devanagari Speech Corpus and Proximal Transfer Benchmark for Nepal Bhasha ASR

Questo lavoro introduce "Nwāchā Munā", un nuovo corpus di parlato in Devanagari di 5,39 ore per la lingua Nepal Bhasha, e dimostra che il trasferimento prossimale da una lingua adiacente come il Nepalese può raggiungere prestazioni di riconoscimento vocale paragonabili a modelli multilingue su larga scala, offrendo una soluzione efficiente per le risorse limitate.

Rishikesh Kumar Sharma, Safal Narshing Shrestha, Jenny Poudel, Rupak Tiwari, Arju Shrestha, Rupak Raj Ghimire, Bal Krishna BalTue, 10 Ma💬 cs.CL

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

Il paper presenta MambaDance, un nuovo approccio per la generazione di danza che sostituisce i modelli Transformer con un'architettura di diffusione basata su Mamba e utilizza una rappresentazione dei battiti musicali di tipo gaussiano per produrre movimenti realistici e sincronizzati con la musica su sequenze di qualsiasi durata.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon JooTue, 10 Ma💻 cs

WhispEar: A Bi-directional Framework for Scaling Whispered Speech Conversion via Pseudo-Parallel Whisper Generation

Il paper presenta WhispEar, un framework bidirezionale che utilizza la generazione di sussurri pseudo-paralleli da parte di un modello di conversione normale-sussurrato per scalare l'addestramento della conversione sussurro-parlato, superando le limitazioni dei dati e ottenendo risultati superiori rispetto ai metodi esistenti.

Zihao Fang, Yingda Shen, Zifan Guan, Tongtong Song, Zhenyi Liu, Zhizheng WuTue, 10 Ma💻 cs

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

Questo lavoro presenta il primo studio sistematico sul ragionamento consapevole dell'ambiguità nei grandi modelli audio-linguistici, riformulando il riconoscimento delle emozioni come un problema distribuzionale e dimostrando miglioramenti significativi attraverso un obiettivo allineato alle distribuzioni percettive umane e una supervisione strutturata del pensiero a catena.

Xiaofeng Yu, Jiaheng Dong, Jean Honorio, Abhirup Ghosh, Hong Jia, Ting DangTue, 10 Ma💻 cs

Benchmarking Language Modeling for Lossless Compression of Full-Fidelity Audio

Il paper introduce Trilobyte, un nuovo schema di tokenizzazione a livello di byte che rende fattibile la compressione audio lossless basata su modelli linguistici per audio ad alta fedeltà (fino a 24 bit), superando i limiti computazionali delle tokenizzazioni precedenti e dimostrando prestazioni superiori al formato FLAC, sebbene con guadagni di compressione che diminuiscono all'aumentare della profondità di bit.

Phillip Long, Zachary Novack, Chris DonahueTue, 10 Ma🤖 cs.LG

Robust Audio-Visual Target Speaker Extraction with Emotion-Aware Multiple Enrollment Fusion

Questo articolo propone un metodo robusto per l'estrazione del parlante target audio-visivo che, sfruttando la fusione di più registrazioni e un addestramento con alti tassi di dati mancanti, mantiene prestazioni elevate anche in presenza di interruzioni dei segnali visivi o uditivi tipici degli scenari reali.

Zhan Jin, Bang Zeng, Peijun Yang, Jiarong Du, Wei Ju, Yao Tian, Juan Liu, Ming LiThu, 12 Ma⚡ eess