eess.AS articles | Gist.Science

ImKWS: Test-Time Adaptation for Keyword Spotting with Class Imbalance

L'article propose ImKWS, une méthode d'adaptation au moment du test pour la détection de mots-clés qui surmonte les déséquilibres de classes et le bruit environnemental en divisant le processus de minimisation de l'entropie en branches de récompense et de pénalité distinctes, assurant ainsi une adaptation fiable sans données étiquetées.

Hanyu Ding, Yang Xiao, Jiaheng Dong, Ting DangMon, 09 Ma⚡ eess

Reconstruct! Don't Encode: Self-Supervised Representation Reconstruction Loss for High-Intelligibility and Low-Latency Streaming Neural Audio Codec

Ce papier présente JHCodec, un codec audio neuronal qui utilise une perte de reconstruction de représentations auto-supervisées (SSRR) pour atteindre un état de l'art en intelligibilité et en faible latence tout en réduisant les coûts d'entraînement.

Junhyeok Lee, Xiluo He, Jihwan Lee, Helin Wang, Shrikanth Narayanan, Thomas Thebaud, Laureano Moro-Velazquez, Jesús Villalba, Najim DehakMon, 09 Ma🤖 cs.AI

Activation Steering for Accent-Neutralized Zero-Shot Text-To-Speech

Cette étude propose une méthode postérieure et sans réentraînement, basée sur l'orientation des activations, pour neutraliser l'accent tout en préservant le timbre de la voix dans les modèles de synthèse vocale zéro-shot.

Mu Yang, John H. L. HansenMon, 09 Ma⚡ eess

StreamVoiceAnon+: Emotion-Preserving Streaming Speaker Anonymization via Frame-Level Acoustic Distillation

L'article présente StreamVoiceAnon+, une méthode d'anonymisation vocale en flux qui préserve les émotions grâce à un affinage supervisé et une distillation au niveau des trames, améliorant significativement la rétention émotionnelle tout en maintenant une faible latence et une forte confidentialité.

Nikita Kuzmin, Kong Aik Lee, Eng Siong ChngMon, 09 Ma🤖 cs.AI

Whisper-CD: Accurate Long-Form Speech Recognition using Multi-Negative Contrastive Decoding

Le papier présente Whisper-CD, un cadre de décodage contrastif sans entraînement qui élimine les hallucinations et les boucles de répétition dans la reconnaissance vocale longue en comparant les logits d'audio propre à ceux générés par des perturbations acoustiques négatives, réduisant ainsi le taux d'erreur de 24,3 points tout en accélérant la génération de 48 %.

Hoseong Ahn, Jeongyun Chae, Yoonji Park, Kyuhong ShimMon, 09 Ma🤖 cs.AI

Continual Adaptation for Pacific Indigenous Speech Recognition

Cette étude empirique démontre que l'adaptation des modèles de reconnaissance vocale aux langues autochtones du Pacifique, bien que cruciale pour pallier le manque de données, se heurte à un dilemme entre plasticité et stabilité, où des méthodes comme LoRA échouent à éviter l'oubli catastrophique lors de l'apprentissage continu de multiples langues.

Yang Xiao, Aso Mahmudi, Nick Thieberger, Eliathamby Ambikairajah, Eun-Jung Holden, Ting DangMon, 09 Ma💬 cs.CL

Classification of Autistic and Non-Autistic Children's Speech: A Cross-Linguistic Study in Finnish, French, and Slovak

Cette étude croisée examine les capacités de classification automatique de la parole d'enfants autistes et non autistes en finnois, français et slovaque, révélant que si certains marqueurs acoustiques sont partagés, la généralisation inter-langues reste limitée et nécessite une modélisation adaptée à chaque langue.

Sofoklis Kakouros, Ida-Lotta MyllyläMon, 09 Ma⚡ eess

Cross-linguistic Prosodic Analysis of Autistic and Non-autistic Child Speech in Finnish, French and Slovak

Cette étude multilingue (finnois, français, slovaque) révèle que le profil prosodique des enfants autistes se caractérise par des marqueurs acoustiques distincts et potentiellement universels, notamment une variabilité accrue de l'intensité et une qualité de voix plus claire, remettant ainsi en question les modèles basés sur la déficience.

Ida-Lotta Myllylä, Sofoklis KakourosMon, 09 Ma⚡ eess

Doctor or Patient? Synergizing Diarization and ASR for Code-Switched Hinglish Medical Conditions Extraction

Ce papier présente un système robuste et open-source qui combine une diarisation neuronale avancée et un modèle de reconnaissance vocale adapté pour extraire efficacement les conditions médicales des dialogues cliniques en Hinglish, ayant remporté la première place du défi DISPLACE-M.

Séverin Baroudi, Yanis Labrak, Shashi Kumar, Joonas Kalda, Sergio Burdisso, Pawel Cyrta, Juan Ignacio Alvarez-Trejos, Petr Motlicek, Hervé Bredin, Ricard MarxerMon, 09 Ma⚡ eess

Community-Informed AI Models for Police Accountability

Cet article propose une approche communautaire pour développer des outils d'intelligence artificielle capables d'analyser les vidéos de caméras corporelles de la police, en intégrant les perspectives de divers acteurs grâce à la collaboration de scientifiques sociaux afin d'améliorer la transparence et la responsabilité gouvernementale.

Benjamin A. T. Grahama, Lauren Brown, Georgios Chochlakis, Morteza Dehghani, Raquel Delerme, Brittany Friedman, Ellie Graeden, Preni Golazizian, Rajat Hebbar, Parsa Hejabi, Aditya Kommineni, Mayagüez Salinas, Michael Sierra-Arévalo, Jackson Trager, Nicholas Weller, Shrikanth NarayananFri, 13 Ma⚡ eess

Audio-Language Models for Audio-Centric Tasks: A Systematic Survey

Cet article présente la première revue systématique des modèles audio-langage, offrant une couverture complète de leurs architectures, objectifs d'entraînement et paysages de recherche pour guider les développements futurs dans la compréhension des scènes audio complexes.

Yi Su, Jisheng Bai, Qisheng Xu, Kele Xu, Yong DouFri, 13 Ma⚡ eess

Text-only adaptation in LLM-based ASR through text denoising

Cet article présente une méthode légère d'adaptation textuelle pour les systèmes de reconnaissance automatique de la parole basés sur les grands modèles de langage, qui traite le processus comme une tâche de débruitage de texte afin d'adapter le modèle à de nouveaux domaines tout en préservant l'alignement crucial entre les modalités parole et texte, surpassant ainsi les méthodes existantes.

Andrés Carofilis, Sergio Burdisso, Esaú Villatoro-Tello, Shashi Kumar, Kadri Hacioglu, Srikanth Madikeri, Pradeep Rangappa, Manjunath K E, Petr Motlicek, Shankar Venkatesan, Andreas StolckeFri, 13 Ma⚡ eess

[b]=[d]-[t]+[p]: Self-supervised Speech Models Discover Phonological Vector Arithmetic

Cette étude démontre que les modèles de parole auto-supervisés encodent l'information phonétique sous forme de vecteurs interprétables et compositionnels, permettant d'effectuer des opérations arithmétiques vectorielles pour modéliser les traits phonologiques et leurs réalisations acoustiques continues à travers 96 langues.

Kwanghee Choi, Eunjung Yeo, Cheol Jun Cho, David Harwath, David R. MortensenFri, 13 Ma⚡ eess

V2A-DPO: Omni-Preference Optimization for Video-to-Audio Generation

Ce papier présente V2A-DPO, un cadre d'optimisation directe des préférences innovant conçu pour aligner les modèles de génération vidéo-vers-audio sur les préférences humaines grâce à un système de notation AudioScore, une pipeline automatisée de données de préférence et une stratégie d'apprentissage par curriculum, surpassant ainsi les méthodes existantes sur le jeu de données VGGSound.

Nolan Chan, Timmy Gang, Yongqian Wang, Yuzhe Liang, Dingdong WangFri, 13 Ma⚡ eess

Can LLMs Help Localize Fake Words in Partially Fake Speech?

Cette étude explore l'utilisation d'un modèle de langage entraîné sur la parole pour localiser des mots falsifiés dans un discours partiellement truqué, révélant que le modèle s'appuie principalement sur des motifs d'édition spécifiques appris lors de l'entraînement, ce qui soulève des questions sur sa capacité à généraliser à des styles d'édition non vus.

Lin Zhang, Thomas Thebaud, Zexin Cai, Sanjeev Khudanpur, Daniel Povey, Leibny Paola García-Perera, Matthew Wiesner, Nicholas AndrewsFri, 13 Ma⚡ eess

Cough activity detection for automatic tuberculosis screening

Cette étude propose l'utilisation de modèles pré-entraînés, en particulier une configuration optimisée de XLS-R, pour détecter avec une grande précision les segments de toux dans des enregistrements audio provenant de patients suspects de tuberculose en Afrique, démontrant ainsi la faisabilité d'intégrer ces outils dans des applications de dépistage automatisé sur smartphone.

Joshua Jansen van Vüren, Devendra Singh Parihar, Daphne Naidoo, Kimsey Zajac, Willy Ssengooba, Grant Theron, Thomas NieslerFri, 13 Ma⚡ eess

Self-Speculative Decoding for LLM-based ASR with CTC Encoder Drafts

Cette proposition de décodage spéculatif auto-dirigé, qui utilise un encodeur CTC comme modèle de brouillon pour accélérer l'inférence des modèles de langage dans la reconnaissance automatique de la parole, permet d'obtenir simultanément une réduction du taux d'erreur et une accélération significative de la vitesse de décodage sur plusieurs corpus et langues.

George Saon, Samuel Thomas, Takashi Fukuda, Tohru Nagano, Avihu Dekel, Luis LastrasFri, 13 Ma⚡ eess

Fair-Gate: Fairness-Aware Interpretable Risk Gating for Sex-Fair Voice Biometrics

Le papier présente Fair-Gate, un cadre de contrôle de risque interprétable qui atténue les biais liés au sexe dans la biométrie vocale en combinant l'extrapolation du risque et un mécanisme de routage de caractéristiques pour améliorer l'équité sans sacrifier la précision.

Yangyang Qu, Todisco Massimiliano, Galdi Chiara, Evans NicholasFri, 13 Ma⚡ eess

Continued Pretraining for Low-Resource Swahili ASR: Achieving State-of-the-Art Performance with Minimal Labeled Data

Cette étude démontre que le préentraînement continu du modèle wav2vec2-bert-2.0, combinant données non étiquetées et un jeu de données limité, permet d'atteindre des performances de reconnaissance automatique de la parole en swahili inédites avec une réduction de 82 % du taux d'erreur par rapport à la ligne de base.

Hillary Mutisya, John MuganeFri, 13 Ma⚡ eess

AnimeScore: A Preference-Based Dataset and Framework for Evaluating Anime-Like Speech Style

Ce papier présente AnimeScore, un cadre d'évaluation basé sur les préférences et un jeu de données de 15 000 jugements par paires qui permettent d'automatiser l'évaluation du style vocal « anime » en identifiant que la perception de ce style repose sur la résonance, la continuité prosodique et l'articulation plutôt que sur la simple hauteur de voix, atteignant jusqu'à 90,8 % de précision avec des modèles de ranking basés sur l'apprentissage auto-supervisé.

Joonyong Park, Jerry LiFri, 13 Ma⚡ eess

← Précédent Suivant →