Reconstruct! Don't Encode: Self-Supervised Representation Reconstruction Loss for High-Intelligibility and Low-Latency Streaming Neural Audio Codec

Ce papier présente JHCodec, un codec audio neuronal qui utilise une perte de reconstruction de représentations auto-supervisées (SSRR) pour atteindre un état de l'art en intelligibilité et en faible latence tout en réduisant les coûts d'entraînement.

Junhyeok Lee, Xiluo He, Jihwan Lee, Helin Wang, Shrikanth Narayanan, Thomas Thebaud, Laureano Moro-Velazquez, Jesús Villalba, Najim DehakMon, 09 Ma🤖 cs.AI

Whisper-CD: Accurate Long-Form Speech Recognition using Multi-Negative Contrastive Decoding

Le papier présente Whisper-CD, un cadre de décodage contrastif sans entraînement qui élimine les hallucinations et les boucles de répétition dans la reconnaissance vocale longue en comparant les logits d'audio propre à ceux générés par des perturbations acoustiques négatives, réduisant ainsi le taux d'erreur de 24,3 points tout en accélérant la génération de 48 %.

Hoseong Ahn, Jeongyun Chae, Yoonji Park, Kyuhong ShimMon, 09 Ma🤖 cs.AI

Continual Adaptation for Pacific Indigenous Speech Recognition

Cette étude empirique démontre que l'adaptation des modèles de reconnaissance vocale aux langues autochtones du Pacifique, bien que cruciale pour pallier le manque de données, se heurte à un dilemme entre plasticité et stabilité, où des méthodes comme LoRA échouent à éviter l'oubli catastrophique lors de l'apprentissage continu de multiples langues.

Yang Xiao, Aso Mahmudi, Nick Thieberger, Eliathamby Ambikairajah, Eun-Jung Holden, Ting DangMon, 09 Ma💬 cs.CL

Classification of Autistic and Non-Autistic Children's Speech: A Cross-Linguistic Study in Finnish, French, and Slovak

Cette étude croisée examine les capacités de classification automatique de la parole d'enfants autistes et non autistes en finnois, français et slovaque, révélant que si certains marqueurs acoustiques sont partagés, la généralisation inter-langues reste limitée et nécessite une modélisation adaptée à chaque langue.

Sofoklis Kakouros, Ida-Lotta MyllyläMon, 09 Ma⚡ eess

Cross-linguistic Prosodic Analysis of Autistic and Non-autistic Child Speech in Finnish, French and Slovak

Cette étude multilingue (finnois, français, slovaque) révèle que le profil prosodique des enfants autistes se caractérise par des marqueurs acoustiques distincts et potentiellement universels, notamment une variabilité accrue de l'intensité et une qualité de voix plus claire, remettant ainsi en question les modèles basés sur la déficience.

Ida-Lotta Myllylä, Sofoklis KakourosMon, 09 Ma⚡ eess

Doctor or Patient? Synergizing Diarization and ASR for Code-Switched Hinglish Medical Conditions Extraction

Ce papier présente un système robuste et open-source qui combine une diarisation neuronale avancée et un modèle de reconnaissance vocale adapté pour extraire efficacement les conditions médicales des dialogues cliniques en Hinglish, ayant remporté la première place du défi DISPLACE-M.

Séverin Baroudi, Yanis Labrak, Shashi Kumar, Joonas Kalda, Sergio Burdisso, Pawel Cyrta, Juan Ignacio Alvarez-Trejos, Petr Motlicek, Hervé Bredin, Ricard MarxerMon, 09 Ma⚡ eess

Community-Informed AI Models for Police Accountability

Cet article propose une approche communautaire pour développer des outils d'intelligence artificielle capables d'analyser les vidéos de caméras corporelles de la police, en intégrant les perspectives de divers acteurs grâce à la collaboration de scientifiques sociaux afin d'améliorer la transparence et la responsabilité gouvernementale.

Benjamin A. T. Grahama, Lauren Brown, Georgios Chochlakis, Morteza Dehghani, Raquel Delerme, Brittany Friedman, Ellie Graeden, Preni Golazizian, Rajat Hebbar, Parsa Hejabi, Aditya Kommineni, Mayagüez Salinas, Michael Sierra-Arévalo, Jackson Trager, Nicholas Weller, Shrikanth NarayananFri, 13 Ma⚡ eess

Text-only adaptation in LLM-based ASR through text denoising

Cet article présente une méthode légère d'adaptation textuelle pour les systèmes de reconnaissance automatique de la parole basés sur les grands modèles de langage, qui traite le processus comme une tâche de débruitage de texte afin d'adapter le modèle à de nouveaux domaines tout en préservant l'alignement crucial entre les modalités parole et texte, surpassant ainsi les méthodes existantes.

Andrés Carofilis, Sergio Burdisso, Esaú Villatoro-Tello, Shashi Kumar, Kadri Hacioglu, Srikanth Madikeri, Pradeep Rangappa, Manjunath K E, Petr Motlicek, Shankar Venkatesan, Andreas StolckeFri, 13 Ma⚡ eess

[b]=[d]-[t]+[p]: Self-supervised Speech Models Discover Phonological Vector Arithmetic

Cette étude démontre que les modèles de parole auto-supervisés encodent l'information phonétique sous forme de vecteurs interprétables et compositionnels, permettant d'effectuer des opérations arithmétiques vectorielles pour modéliser les traits phonologiques et leurs réalisations acoustiques continues à travers 96 langues.

Kwanghee Choi, Eunjung Yeo, Cheol Jun Cho, David Harwath, David R. MortensenFri, 13 Ma⚡ eess

V2A-DPO: Omni-Preference Optimization for Video-to-Audio Generation

Ce papier présente V2A-DPO, un cadre d'optimisation directe des préférences innovant conçu pour aligner les modèles de génération vidéo-vers-audio sur les préférences humaines grâce à un système de notation AudioScore, une pipeline automatisée de données de préférence et une stratégie d'apprentissage par curriculum, surpassant ainsi les méthodes existantes sur le jeu de données VGGSound.

Nolan Chan, Timmy Gang, Yongqian Wang, Yuzhe Liang, Dingdong WangFri, 13 Ma⚡ eess

Can LLMs Help Localize Fake Words in Partially Fake Speech?

Cette étude explore l'utilisation d'un modèle de langage entraîné sur la parole pour localiser des mots falsifiés dans un discours partiellement truqué, révélant que le modèle s'appuie principalement sur des motifs d'édition spécifiques appris lors de l'entraînement, ce qui soulève des questions sur sa capacité à généraliser à des styles d'édition non vus.

Lin Zhang, Thomas Thebaud, Zexin Cai, Sanjeev Khudanpur, Daniel Povey, Leibny Paola García-Perera, Matthew Wiesner, Nicholas AndrewsFri, 13 Ma⚡ eess

Cough activity detection for automatic tuberculosis screening

Cette étude propose l'utilisation de modèles pré-entraînés, en particulier une configuration optimisée de XLS-R, pour détecter avec une grande précision les segments de toux dans des enregistrements audio provenant de patients suspects de tuberculose en Afrique, démontrant ainsi la faisabilité d'intégrer ces outils dans des applications de dépistage automatisé sur smartphone.

Joshua Jansen van Vüren, Devendra Singh Parihar, Daphne Naidoo, Kimsey Zajac, Willy Ssengooba, Grant Theron, Thomas NieslerFri, 13 Ma⚡ eess

Self-Speculative Decoding for LLM-based ASR with CTC Encoder Drafts

Cette proposition de décodage spéculatif auto-dirigé, qui utilise un encodeur CTC comme modèle de brouillon pour accélérer l'inférence des modèles de langage dans la reconnaissance automatique de la parole, permet d'obtenir simultanément une réduction du taux d'erreur et une accélération significative de la vitesse de décodage sur plusieurs corpus et langues.

George Saon, Samuel Thomas, Takashi Fukuda, Tohru Nagano, Avihu Dekel, Luis LastrasFri, 13 Ma⚡ eess

AnimeScore: A Preference-Based Dataset and Framework for Evaluating Anime-Like Speech Style

Ce papier présente AnimeScore, un cadre d'évaluation basé sur les préférences et un jeu de données de 15 000 jugements par paires qui permettent d'automatiser l'évaluation du style vocal « anime » en identifiant que la perception de ce style repose sur la résonance, la continuité prosodique et l'articulation plutôt que sur la simple hauteur de voix, atteignant jusqu'à 90,8 % de précision avec des modèles de ranking basés sur l'apprentissage auto-supervisé.

Joonyong Park, Jerry LiFri, 13 Ma⚡ eess