eess.AS articles | Gist.Science

LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio

Le papier présente LongAudio-RAG, un cadre hybride qui répond aux questions sur des enregistrements audio de plusieurs heures en ancrant les réponses d'un grand modèle de langage dans des événements acoustiques structurés et horodatés, permettant ainsi une extraction efficace en périphérie et un raisonnement de haute qualité dans le cloud.

Naveen Vakada, Kartik Hegde, Arvind Krishna Sridhar, Yinyi Guo, Erik VisserTue, 10 Ma🤖 cs.LG

TCG CREST System Description for the DISPLACE-M Challenge

Ce rapport présente le système TCG CREST pour le défi DISPLACE-M, qui a atteint la sixième place en obtenant un taux d'erreur de diarisation de 9,21 % sur l'ensemble d'évaluation grâce à l'utilisation du système hybride Diarizen basé sur WavLM couplé à un algorithme de clustering hiérarchique agglomératif optimisé.

Nikhil Raghav, Md SahidullahTue, 10 Ma🤖 cs.LG

Toward Multimodal Industrial Fault Analysis: A Single-Speed Chain Conveyor Dataset with Audio and Vibration Signals

Cet article présente un nouveau jeu de données multimodal pour l'analyse des défauts industriels, comprenant des signaux audio et vibratoires d'un convoyeur à chaîne, conçu pour faciliter la recherche sur la détection de pannes et la fusion multimodale dans des conditions de production réalistes.

Zhang Chen, Yucong Zhang, Xiaoxiao Miao, Ming LiTue, 10 Ma💻 cs

Towards Objective Gastrointestinal Auscultation: Automated Segmentation and Annotation of Bowel Sound Patterns

Cette étude présente un pipeline automatisé utilisant un capteur acoustique portable et un modèle de transformateur audio pour segmenter et classifier les bruits intestinaux, permettant une évaluation objective de l'activité digestive avec une haute précision et une réduction significative du temps d'annotation manuelle.

Zahra Mansour, Verena Uslar, Dirk Weyhe, Danilo Hollosi, Nils StrodthoffTue, 10 Ma🤖 cs.LG

Scaling Self-Supervised Speech Models Uncovers Deep Linguistic Relationships: Evidence from the Pacific Cluster

En étendant la couverture linguistique d'un modèle de reconnaissance automatique de la parole auto-supervisé de 126 à 4 017 langues, cette étude révèle un changement qualitatif non linéaire permettant de capturer des signaux généalogiques profonds et des contacts linguistiques à long terme, notamment au sein d'un macro-cluster robuste du Pacifique.

Minu Kim, Hoirin Kim, David R. MortensenTue, 10 Ma💬 cs.CL

Seeing the Context: Rich Visual Context-Aware Speech Recognition via Multimodal Reasoning

Ce papier présente VASR, une approche de reconnaissance de parole qui intègre un raisonnement multimodal de type « chaîne de pensée » pour exploiter le contexte visuel riche au-delà du mouvement des lèvres, surmontant ainsi les limites des méthodes actuelles et atteignant des performances de pointe.

Wenjie Tian, Mingchen Shao, Bingshen Mu, Xuelong Geng, Chengyou Wang, Yujie Liao, Zhixian Zhao, Ziyu Zhang, Jingbin Hu, Mengqi Wei, Lei XieTue, 10 Ma💻 cs

Fast and Flexible Audio Bandwidth Extension via Vocos

Ce papier présente un modèle d'extension de bande passante audio basé sur Vocos qui génère des contenus haute fréquence manquants pour étendre la plage de 8 à 48 kHz avec une qualité compétitive et un débit extrême, permettant un traitement en temps réel sur des GPU et CPU standards.

Yatharth SharmaTue, 10 Ma🤖 cs.LG

Towards Lightweight Adaptation of Speech Enhancement Models in Real-World Environments

Cet article propose un cadre d'adaptation léger pour les modèles d'amélioration de la parole, utilisant des adaptateurs de faible rang mis à jour de manière auto-supervisée, qui permet d'améliorer la robustesse dans des environnements acoustiques dynamiques avec moins de 1 % des paramètres mis à jour et une convergence stable.

Longbiao Cheng, Shih-Chii LiuTue, 10 Ma🤖 cs.LG

Evaluating Parkinson's Disease Detection in Anonymized Speech: A Performance and Acoustic Analysis

Cette étude démontre que la détection du Parkinson via la parole anonymisée est viable en utilisant la méthode kNN-VC, qui préserve les informations pathologiques essentielles tout en garantissant la confidentialité, contrairement à la méthode STT-TTS qui altère trop les données diagnostiques.

Carlos Franzreb, Francisco Teixeira, Ben Luks, Sebastian Möller, Alberto AbadTue, 10 Ma💻 cs

Analysis-Driven Procedural Generation of an Engine Sound Dataset with Embedded Control Annotations

Cet article présente un cadre de génération procédurale d'un dataset de sons de moteur annoté avec précision, qui extrait les structures harmoniques de vrais enregistrements pour alimenter un synthétiseur paramétrique et fournir des données standardisées essentielles à la recherche en conception sonore automobile.

Robin Doerfler, Lonce WyseTue, 10 Ma🤖 cs.LG

SoundWeaver: Semantic Warm-Starting for Text-to-Audio Diffusion Serving

SoundWeaver est un système de service sans entraînement et agnostique au modèle qui accélère la génération d'audio par diffusion texte-son en amorçant le processus à partir d'audios mis en cache sémantiquement similaires, réduisant ainsi la latence de 1,8 à 3 fois tout en préservant la qualité perceptive.

Ayush Barik, Sofia Stoica, Nikhil Sarda, Arnav Kethana, Abhinav Khanduja, Muchen Xu, Fan LaiTue, 10 Ma💻 cs

WhispEar: A Bi-directional Framework for Scaling Whispered Speech Conversion via Pseudo-Parallel Whisper Generation

L'article présente WhispEar, un cadre bidirectionnel qui améliore la conversion de la parole chuchotée en parole normale en exploitant des représentations sémantiques unifiées et en générant des données parallèles pseudo-issues de la parole normale pour surmonter le manque de données d'entraînement.

Zihao Fang, Yingda Shen, Zifan Guan, Tongtong Song, Zhenyi Liu, Zhizheng WuTue, 10 Ma💻 cs

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

Le papier présente FoleyFlow, une méthode innovante qui améliore la génération audio coordonnée à partir de vidéos en alignant les encodeurs audio-visuels via un apprentissage par masquage pour garantir la cohérence sémantique et rythmique, puis en utilisant un flux conditionnel dynamique pour générer l'audio.

Shentong Mo, Yibing SongTue, 10 Ma🤖 cs.LG

DualTurn: Learning Turn-Taking from Dual-Channel Generative Speech Pretraining

Le papier présente DualTurn, un modèle préentraîné sur des conversations audio à double canal qui génère de manière autonome les futures paroles des deux interlocuteurs pour apprendre implicitement la dynamique conversationnelle et prédire avec précision les signaux de prise de parole, surpassant ainsi les approches existantes en réduisant les interruptions et en anticipant plus tôt les transitions.

Shangeth RajaaTue, 10 Ma💬 cs.CL

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

Cet article présente une étude systématique sur le raisonnement des modèles audio-langage face aux émotions ambiguës, en reformulant la reconnaissance comme un problème de distribution et en proposant un cadre d'apprentissage combinant un objectif aligné sur les perceptions humaines et une supervision structurée par chaîne de pensée, ce qui améliore les performances sur les jeux de données IEMOCAP et CREMA-D.

Xiaofeng Yu, Jiaheng Dong, Jean Honorio, Abhirup Ghosh, Hong Jia, Ting DangTue, 10 Ma💻 cs

Quantifying Cross-Lingual Transfer in Paralinguistic Speech Tasks

Cet article introduit la Matrice de Transfert Interlinguistique (CLTM), une méthode systématique pour quantifier les interactions entre paires de langues dans des tâches paralinguistiques, révélant que l'impact des données d'une langue source sur les performances d'une langue cible varie de manière significative selon la tâche et la langue, contredisant ainsi l'idée que ces tâches sont purement agnostiques à la langue.

Pol Buitrago, Oriol Pareras, Federico Costa, Javier HernandoTue, 10 Ma💬 cs.CL

Bootstrapping Audiovisual Speech Recognition in Zero-AV-Resource Scenarios with Synthetic Visual Data

Ce papier propose un cadre d'apprentissage de la reconnaissance audiovisuelle de la parole pour des langues sans ressources, en générant des flux visuels synthétiques par synchronisation labiale d'images statiques avec de l'audio réel, permettant d'entraîner un modèle performant sur le catalan sans corpus vidéo annoté.

Pol Buitrago, Pol Gàlvez, Oriol Pareras, Javier HernandoTue, 10 Ma💬 cs.CL

Computational modeling of early language learning from acoustic speech and audiovisual input without linguistic priors

Ce chapitre examine comment les modèles computationnels auto-supervisés et ancrés dans le visuel permettent d'expliquer l'acquisition précoce du langage à partir de la parole et de l'input audiovisuel sans recourir à des prérequis linguistiques forts, en reliant ces simulations de plus en plus réalistes aux données empiriques sur le développement infantile.

Okko RäsänenTue, 10 Ma💬 cs.CL

Benchmarking Language Modeling for Lossless Compression of Full-Fidelity Audio

Ce papier présente Trilobyte, une méthode de tokenisation au niveau du byte permettant pour la première fois la compression audio sans perte par modèles de langage sur des fichiers haute fidélité (jusqu'à 24 bits), bien que les gains de compression par rapport aux codecs existants diminuent à mesure que la profondeur de bits augmente.

Phillip Long, Zachary Novack, Chris DonahueTue, 10 Ma🤖 cs.LG

Are Deep Speech Denoising Models Robust to Adversarial Noise?

Cette étude démontre que des modèles de suppression de bruit profond, pourtant largement utilisés dans des applications critiques, peuvent être rendus inintelligibles par l'ajout de bruit adversaire psychoacoustiquement masqué, soulignant ainsi la nécessité de contre-mesures avant leur déploiement dans des environnements sûrs.

Will Schwarzer, Neel Chaudhari, Philip S. Thomas, Andrea Fanelli, Xiaoyu LiuThu, 12 Ma⚡ eess

← Précédent Suivant →