cs.SD articoli | Gist.Science

Towards Lightweight Adaptation of Speech Enhancement Models in Real-World Environments

Questo lavoro propone un framework di adattamento leggero per modelli di potenziamento vocale che, aggiornando meno dell'1% dei parametri tramite adattatori a basso rango e apprendimento auto-supervisionato, migliora significativamente la robustezza in scenari acustici reali dinamici con costi computazionali ridotti.

Longbiao Cheng, Shih-Chii LiuTue, 10 Ma🤖 cs.LG

Evaluating Parkinson's Disease Detection in Anonymized Speech: A Performance and Acoustic Analysis

Lo studio valuta il compromesso tra privacy e rilevamento del morbo di Parkinson nella voce, dimostrando che l'anonimizzazione tramite kNN-VC, pur proteggendo l'identità, preserva sufficienti caratteristiche acustiche per mantenere un'alta accuratezza diagnostica, a differenza del metodo STT-TTS che degrada le prestazioni eliminando le informazioni prosodiche.

Carlos Franzreb, Francisco Teixeira, Ben Luks, Sebastian Möller, Alberto AbadTue, 10 Ma💻 cs

Targeted Speaker Poisoning Framework in Zero-Shot Text-to-Speech

Questo lavoro introduce un nuovo framework di avvelenamento mirato per la sintesi vocale zero-shot (SGSP) che modifica i modelli TTS per impedire la generazione di identità vocali specifiche, valutando il compromesso tra privacy e utilità e dimostrando efficacia fino a 15 speaker prima di incontrare limiti di scalabilità.

Thanapat Trachu, Thanathai Lertpetchpun, Sai Praneeth Karimireddy, Shrikanth NarayananTue, 10 Ma💻 cs

Nw\=ach\=a Mun\=a: A Devanagari Speech Corpus and Proximal Transfer Benchmark for Nepal Bhasha ASR

Questo lavoro introduce "Nwāchā Munā", un nuovo corpus di parlato in Devanagari di 5,39 ore per la lingua Nepal Bhasha, e dimostra che il trasferimento prossimale da una lingua adiacente come il Nepalese può raggiungere prestazioni di riconoscimento vocale paragonabili a modelli multilingue su larga scala, offrendo una soluzione efficiente per le risorse limitate.

Rishikesh Kumar Sharma, Safal Narshing Shrestha, Jenny Poudel, Rupak Tiwari, Arju Shrestha, Rupak Raj Ghimire, Bal Krishna BalTue, 10 Ma💬 cs.CL

Analysis-Driven Procedural Generation of an Engine Sound Dataset with Embedded Control Annotations

Questo articolo presenta un framework di generazione procedurale basato sull'analisi che produce il "Procedural Engine Sounds Dataset", un insieme di 19 ore di suoni di motori sintetizzati con annotazioni di controllo RPM e coppia a precisione campionaria, validato per supportare la ricerca nel campo della modellazione acustica e della sintesi neurale.

Robin Doerfler, Lonce WyseTue, 10 Ma🤖 cs.LG

VoiceSHIELD-Small: Real-Time Malicious Speech Detection and Transcription

Il paper presenta VoiceSHIELD-Small, un modello leggero basato su Whisper-small che rileva in tempo reale e trascrive comandi vocali dannosi con un'accuratezza del 99,16%, superando i limiti dei metodi tradizionali basati sulla trascrizione testuale.

Sumit Ranjan, Sugandha Sharma, Ubaid Abbas, Puneeth N AilTue, 10 Ma💻 cs

SoundWeaver: Semantic Warm-Starting for Text-to-Audio Diffusion Serving

SoundWeaver è il primo sistema di serving training-free e agnostico rispetto al modello che accelera la generazione di audio da testo tramite modelli di diffusione, riducendo la latenza fino a 3 volte riutilizzando audio cached semanticamente simili senza comprometterne la qualità.

Ayush Barik, Sofia Stoica, Nikhil Sarda, Arnav Kethana, Abhinav Khanduja, Muchen Xu, Fan LaiTue, 10 Ma💻 cs

Unsupervised Domain Adaptation for Audio Deepfake Detection with Modular Statistical Transformations

Questo articolo presenta una pipeline modulare per l'adattamento di dominio non supervisionato nella rilevazione di deepfake audio, che combina trasformazioni statistiche e allineamento CORAL per migliorare la generalizzazione cross-dominio senza dati target etichettati, offrendo un compromesso tra prestazioni e interpretabilità.

Urawee Thani, Gagandeep Singh, Priyanka SinghTue, 10 Ma💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

Il paper presenta MambaDance, un nuovo approccio per la generazione di danza che sostituisce i modelli Transformer con un'architettura di diffusione basata su Mamba e utilizza una rappresentazione dei battiti musicali di tipo gaussiano per produrre movimenti realistici e sincronizzati con la musica su sequenze di qualsiasi durata.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon JooTue, 10 Ma💻 cs

WhispEar: A Bi-directional Framework for Scaling Whispered Speech Conversion via Pseudo-Parallel Whisper Generation

Il paper presenta WhispEar, un framework bidirezionale che utilizza la generazione di sussurri pseudo-paralleli da parte di un modello di conversione normale-sussurrato per scalare l'addestramento della conversione sussurro-parlato, superando le limitazioni dei dati e ottenendo risultati superiori rispetto ai metodi esistenti.

Zihao Fang, Yingda Shen, Zifan Guan, Tongtong Song, Zhenyi Liu, Zhizheng WuTue, 10 Ma💻 cs

PathBench: Speech Intelligibility Benchmark for Automatic Pathological Speech Assessment

Il paper introduce PathBench, un benchmark unificato per la valutazione automatica dell'intelligibilità del parlato patologico basato su dataset pubblici, che stabilisce linee di base comparative per diversi metodi e protocolli e propone il nuovo approccio DArtP per la precisione articolatoria.

Bence Mark Halpern, Thomas Tienkamp, Defne Abur, Tomoki TodaTue, 10 Ma💻 cs

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

Il paper presenta FoleyFlow, un nuovo metodo che allinea encoder audio-visivi tramite modellazione mascherata e utilizza un flusso condizionale dinamico per generare audio sincronizzato semanticamente e ritmicamente con i video di input, superando le prestazioni dei metodi precedenti.

Shentong Mo, Yibing SongTue, 10 Ma🤖 cs.LG

Soundscapes in Spectrograms: Pioneering Multilabel Classification for South Asian Sounds

Questo studio introduce un metodo innovativo basato su spettrogrammi e reti neurali convolutive che supera le tecniche tradizionali MFCC nella classificazione multietichetta dei suoni sudasiatici, ottenendo prestazioni superiori sui dataset SAS-KIIT e UrbanSound8K.

Sudip Chakrabarty, Pappu Bishwas, Rajdeep Chatterjee, Tathagata Bandyopadhyay, Digonto Biswas, Bibek HowladerTue, 10 Ma💻 cs

Evolution Strategy-Based Calibration for Low-Bit Quantization of Speech Models

Il paper propone ESC, un metodo di calibrazione basato su strategie evolutive che risolve le sfide specifiche della quantizzazione a bassa precisione nei modelli di elaborazione del parlato, garantendo prestazioni quasi senza perdite fino alla quantizzazione INT4.

Lucas RakotoarivonyTue, 10 Ma💻 cs

DualTurn: Learning Turn-Taking from Dual-Channel Generative Speech Pretraining

Il paper presenta DualTurn, un modello preaddestrato su audio conversazionale a doppio canale che genera autonomamente le future interazioni vocali per imparare dinamiche naturali di turno e prevedere azioni di agente con prestazioni superiori rispetto agli approcci esistenti.

Shangeth RajaaTue, 10 Ma💬 cs.CL

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

Questo lavoro presenta il primo studio sistematico sul ragionamento consapevole dell'ambiguità nei grandi modelli audio-linguistici, riformulando il riconoscimento delle emozioni come un problema distribuzionale e dimostrando miglioramenti significativi attraverso un obiettivo allineato alle distribuzioni percettive umane e una supervisione strutturata del pensiero a catena.

Xiaofeng Yu, Jiaheng Dong, Jean Honorio, Abhirup Ghosh, Hong Jia, Ting DangTue, 10 Ma💻 cs

Scalable Neural Vocoder from Range-Null Space Decomposition

Questo articolo propone un nuovo vocodere neurale scalabile basato sulla decomposizione rango-nullo nel dominio tempo-frequenza, che combina proiezioni matematiche e reti neurali per ottenere prestazioni all'avanguardia con un'architettura leggera e flessibile.

Andong Li, Tong Lei, Zhihang Sun, Rilin Chen, Xiaodong Li, Dong Yu, Chengshi ZhengTue, 10 Ma💻 cs

Benchmarking Language Modeling for Lossless Compression of Full-Fidelity Audio

Il paper introduce Trilobyte, un nuovo schema di tokenizzazione a livello di byte che rende fattibile la compressione audio lossless basata su modelli linguistici per audio ad alta fedeltà (fino a 24 bit), superando i limiti computazionali delle tokenizzazioni precedenti e dimostrando prestazioni superiori al formato FLAC, sebbene con guadagni di compressione che diminuiscono all'aumentare della profondità di bit.

Phillip Long, Zachary Novack, Chris DonahueTue, 10 Ma🤖 cs.LG

Are Deep Speech Denoising Models Robust to Adversarial Noise?

Questo studio dimostra che quattro recenti modelli di soppressione del rumore profondo possono essere resi inintelligibili dall'aggiunta di rumore avversario psicologicamente nascosto, evidenziando la necessità di contromisure pratiche prima del loro utilizzo in applicazioni critiche per la sicurezza.

Will Schwarzer, Neel Chaudhari, Philip S. Thomas, Andrea Fanelli, Xiaoyu LiuThu, 12 Ma⚡ eess

Robust Audio-Visual Target Speaker Extraction with Emotion-Aware Multiple Enrollment Fusion

Questo articolo propone un metodo robusto per l'estrazione del parlante target audio-visivo che, sfruttando la fusione di più registrazioni e un addestramento con alti tassi di dati mancanti, mantiene prestazioni elevate anche in presenza di interruzioni dei segnali visivi o uditivi tipici degli scenari reali.

Zhan Jin, Bang Zeng, Peijun Yang, Jiarong Du, Wei Ju, Yao Tian, Juan Liu, Ming LiThu, 12 Ma⚡ eess

← Precedente Successivo →