cs.SD articles | Gist.Science

Towards Lightweight Adaptation of Speech Enhancement Models in Real-World Environments

Cet article propose un cadre d'adaptation léger pour les modèles d'amélioration de la parole, utilisant des adaptateurs de faible rang mis à jour de manière auto-supervisée, qui permet d'améliorer la robustesse dans des environnements acoustiques dynamiques avec moins de 1 % des paramètres mis à jour et une convergence stable.

Longbiao Cheng, Shih-Chii LiuTue, 10 Ma🤖 cs.LG

Evaluating Parkinson's Disease Detection in Anonymized Speech: A Performance and Acoustic Analysis

Cette étude démontre que la détection du Parkinson via la parole anonymisée est viable en utilisant la méthode kNN-VC, qui préserve les informations pathologiques essentielles tout en garantissant la confidentialité, contrairement à la méthode STT-TTS qui altère trop les données diagnostiques.

Carlos Franzreb, Francisco Teixeira, Ben Luks, Sebastian Möller, Alberto AbadTue, 10 Ma💻 cs

Targeted Speaker Poisoning Framework in Zero-Shot Text-to-Speech

Cet article présente un cadre de « poisoning » ciblé pour les modèles de synthèse vocale zéro-shot, visant à empêcher la génération de voix spécifiques tout en préservant l'utilité du modèle, et met en évidence des limites d'évolutivité lorsque le nombre de voix à oublier augmente.

Thanapat Trachu, Thanathai Lertpetchpun, Sai Praneeth Karimireddy, Shrikanth NarayananTue, 10 Ma💻 cs

Nw\=ach\=a Mun\=a: A Devanagari Speech Corpus and Proximal Transfer Benchmark for Nepal Bhasha ASR

Cet article présente Nwāchā Munā, un corpus de parole de 5,39 heures en écriture devanagari pour la langue népalaise (Newari), et démontre que l'adaptation fine d'un modèle à partir du népalais voisin permet d'atteindre des performances de reconnaissance automatique de la parole comparables à celles des grands modèles multilingues, offrant ainsi une solution efficace pour cette langue en danger.

Rishikesh Kumar Sharma, Safal Narshing Shrestha, Jenny Poudel, Rupak Tiwari, Arju Shrestha, Rupak Raj Ghimire, Bal Krishna BalTue, 10 Ma💬 cs.CL

Analysis-Driven Procedural Generation of an Engine Sound Dataset with Embedded Control Annotations

Cet article présente un cadre de génération procédurale d'un dataset de sons de moteur annoté avec précision, qui extrait les structures harmoniques de vrais enregistrements pour alimenter un synthétiseur paramétrique et fournir des données standardisées essentielles à la recherche en conception sonore automobile.

Robin Doerfler, Lonce WyseTue, 10 Ma🤖 cs.LG

VoiceSHIELD-Small: Real-Time Malicious Speech Detection and Transcription

Le papier présente VoiceSHIELD-Small, un modèle léger et open source capable de détecter en temps réel les commandes vocales malveillantes tout en transcrivant la parole, offrant ainsi une sécurité supérieure aux méthodes traditionnelles avec une précision de 99,16 %.

Sumit Ranjan, Sugandha Sharma, Ubaid Abbas, Puneeth N AilTue, 10 Ma💻 cs

SoundWeaver: Semantic Warm-Starting for Text-to-Audio Diffusion Serving

SoundWeaver est un système de service sans entraînement et agnostique au modèle qui accélère la génération d'audio par diffusion texte-son en amorçant le processus à partir d'audios mis en cache sémantiquement similaires, réduisant ainsi la latence de 1,8 à 3 fois tout en préservant la qualité perceptive.

Ayush Barik, Sofia Stoica, Nikhil Sarda, Arnav Kethana, Abhinav Khanduja, Muchen Xu, Fan LaiTue, 10 Ma💻 cs

Unsupervised Domain Adaptation for Audio Deepfake Detection with Modular Statistical Transformations

Ce papier présente un pipeline modulaire d'adaptation de domaine non supervisé, combinant des embeddings Wav2Vec 2.0 pré-entraînés à des transformations statistiques pour améliorer la détection de deepfakes audio entre différents domaines sans données étiquetées cibles, tout en garantissant l'interprétabilité des décisions.

Urawee Thani, Gagandeep Singh, Priyanka SinghTue, 10 Ma💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

Cet article présente MambaDance, une nouvelle méthode de génération de danse qui remplace les Transformers par un modèle de diffusion basé sur Mamba et utilise une représentation des battements musicaux pour produire des mouvements synchronisés et expressifs, surpassant les approches existantes sur des séquences de toutes durées.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon JooTue, 10 Ma💻 cs

WhispEar: A Bi-directional Framework for Scaling Whispered Speech Conversion via Pseudo-Parallel Whisper Generation

L'article présente WhispEar, un cadre bidirectionnel qui améliore la conversion de la parole chuchotée en parole normale en exploitant des représentations sémantiques unifiées et en générant des données parallèles pseudo-issues de la parole normale pour surmonter le manque de données d'entraînement.

Zihao Fang, Yingda Shen, Zifan Guan, Tongtong Song, Zhenyi Liu, Zhizheng WuTue, 10 Ma💻 cs

PathBench: Speech Intelligibility Benchmark for Automatic Pathological Speech Assessment

Ce papier présente PathBench, un benchmark unifié pour l'évaluation automatique de l'intelligibilité de la parole pathologique basé sur des jeux de données publics, qui établit des références systématiques et introduit la méthode DArtP pour surpasser les approches existantes.

Bence Mark Halpern, Thomas Tienkamp, Defne Abur, Tomoki TodaTue, 10 Ma💻 cs

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

Le papier présente FoleyFlow, une méthode innovante qui améliore la génération audio coordonnée à partir de vidéos en alignant les encodeurs audio-visuels via un apprentissage par masquage pour garantir la cohérence sémantique et rythmique, puis en utilisant un flux conditionnel dynamique pour générer l'audio.

Shentong Mo, Yibing SongTue, 10 Ma🤖 cs.LG

Soundscapes in Spectrograms: Pioneering Multilabel Classification for South Asian Sounds

Cette étude présente une méthode novatrice de classification multietiquette des sons sud-asiatiques basée sur les spectrogrammes et les réseaux de neurones convolutifs, qui surpasse les techniques traditionnelles utilisant les coefficients MFCC en termes de précision sur les ensembles de données SAS-KIIT et UrbanSound8K.

Sudip Chakrabarty, Pappu Bishwas, Rajdeep Chatterjee, Tathagata Bandyopadhyay, Digonto Biswas, Bibek HowladerTue, 10 Ma💻 cs

Evolution Strategy-Based Calibration for Low-Bit Quantization of Speech Models

Cet article propose ESC, une méthode de calibration basée sur les stratégies d'évolution qui résout les défis spécifiques de la quantification des modèles de parole en permettant des performances quasi sans perte en INT4 et INT8, comblant ainsi le fossé laissé par les techniques existantes conçues pour la vision et le NLP.

Lucas RakotoarivonyTue, 10 Ma💻 cs

DualTurn: Learning Turn-Taking from Dual-Channel Generative Speech Pretraining

Le papier présente DualTurn, un modèle préentraîné sur des conversations audio à double canal qui génère de manière autonome les futures paroles des deux interlocuteurs pour apprendre implicitement la dynamique conversationnelle et prédire avec précision les signaux de prise de parole, surpassant ainsi les approches existantes en réduisant les interruptions et en anticipant plus tôt les transitions.

Shangeth RajaaTue, 10 Ma💬 cs.CL

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

Cet article présente une étude systématique sur le raisonnement des modèles audio-langage face aux émotions ambiguës, en reformulant la reconnaissance comme un problème de distribution et en proposant un cadre d'apprentissage combinant un objectif aligné sur les perceptions humaines et une supervision structurée par chaîne de pensée, ce qui améliore les performances sur les jeux de données IEMOCAP et CREMA-D.

Xiaofeng Yu, Jiaheng Dong, Jean Honorio, Abhirup Ghosh, Hong Jia, Ting DangTue, 10 Ma💻 cs

Scalable Neural Vocoder from Range-Null Space Decomposition

Cet article propose un nouveau vocodeur neuronal évolutif dans le domaine temps-fréquence qui intègre la décomposition espace-image/espace-nul pour améliorer la reconstruction spectrale, tout en offrant une structure légère, une inférence adaptable à diverses configurations et des performances de pointe.

Andong Li, Tong Lei, Zhihang Sun, Rilin Chen, Xiaodong Li, Dong Yu, Chengshi ZhengTue, 10 Ma💻 cs

Benchmarking Language Modeling for Lossless Compression of Full-Fidelity Audio

Ce papier présente Trilobyte, une méthode de tokenisation au niveau du byte permettant pour la première fois la compression audio sans perte par modèles de langage sur des fichiers haute fidélité (jusqu'à 24 bits), bien que les gains de compression par rapport aux codecs existants diminuent à mesure que la profondeur de bits augmente.

Phillip Long, Zachary Novack, Chris DonahueTue, 10 Ma🤖 cs.LG

Are Deep Speech Denoising Models Robust to Adversarial Noise?

Cette étude démontre que des modèles de suppression de bruit profond, pourtant largement utilisés dans des applications critiques, peuvent être rendus inintelligibles par l'ajout de bruit adversaire psychoacoustiquement masqué, soulignant ainsi la nécessité de contre-mesures avant leur déploiement dans des environnements sûrs.

Will Schwarzer, Neel Chaudhari, Philip S. Thomas, Andrea Fanelli, Xiaoyu LiuThu, 12 Ma⚡ eess

Robust Audio-Visual Target Speaker Extraction with Emotion-Aware Multiple Enrollment Fusion

Ce papier propose une méthode robuste d'extraction de locuteur cible audio-visuelle qui, en s'entraînant avec un taux élevé de données manquantes, maintient des performances stables même en cas de perte de modalités lors du test, démontrant notamment l'efficacité de la fusion d'une image de visage avec des caractéristiques labiales.

Zhan Jin, Bang Zeng, Peijun Yang, Jiarong Du, Wei Ju, Yao Tian, Juan Liu, Ming LiThu, 12 Ma⚡ eess

← Précédent Suivant →