LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio

Le papier présente LongAudio-RAG, un cadre hybride qui répond aux questions sur des enregistrements audio de plusieurs heures en ancrant les réponses d'un grand modèle de langage dans des événements acoustiques structurés et horodatés, permettant ainsi une extraction efficace en périphérie et un raisonnement de haute qualité dans le cloud.

Naveen Vakada, Kartik Hegde, Arvind Krishna Sridhar, Yinyi Guo, Erik VisserTue, 10 Ma🤖 cs.LG

Towards Objective Gastrointestinal Auscultation: Automated Segmentation and Annotation of Bowel Sound Patterns

Cette étude présente un pipeline automatisé utilisant un capteur acoustique portable et un modèle de transformateur audio pour segmenter et classifier les bruits intestinaux, permettant une évaluation objective de l'activité digestive avec une haute précision et une réduction significative du temps d'annotation manuelle.

Zahra Mansour, Verena Uslar, Dirk Weyhe, Danilo Hollosi, Nils StrodthoffTue, 10 Ma🤖 cs.LG

Scaling Self-Supervised Speech Models Uncovers Deep Linguistic Relationships: Evidence from the Pacific Cluster

En étendant la couverture linguistique d'un modèle de reconnaissance automatique de la parole auto-supervisé de 126 à 4 017 langues, cette étude révèle un changement qualitatif non linéaire permettant de capturer des signaux généalogiques profonds et des contacts linguistiques à long terme, notamment au sein d'un macro-cluster robuste du Pacifique.

Minu Kim, Hoirin Kim, David R. MortensenTue, 10 Ma💬 cs.CL

Seeing the Context: Rich Visual Context-Aware Speech Recognition via Multimodal Reasoning

Ce papier présente VASR, une approche de reconnaissance de parole qui intègre un raisonnement multimodal de type « chaîne de pensée » pour exploiter le contexte visuel riche au-delà du mouvement des lèvres, surmontant ainsi les limites des méthodes actuelles et atteignant des performances de pointe.

Wenjie Tian, Mingchen Shao, Bingshen Mu, Xuelong Geng, Chengyou Wang, Yujie Liao, Zhixian Zhao, Ziyu Zhang, Jingbin Hu, Mengqi Wei, Lei XieTue, 10 Ma💻 cs

WhispEar: A Bi-directional Framework for Scaling Whispered Speech Conversion via Pseudo-Parallel Whisper Generation

L'article présente WhispEar, un cadre bidirectionnel qui améliore la conversion de la parole chuchotée en parole normale en exploitant des représentations sémantiques unifiées et en générant des données parallèles pseudo-issues de la parole normale pour surmonter le manque de données d'entraînement.

Zihao Fang, Yingda Shen, Zifan Guan, Tongtong Song, Zhenyi Liu, Zhizheng WuTue, 10 Ma💻 cs

DualTurn: Learning Turn-Taking from Dual-Channel Generative Speech Pretraining

Le papier présente DualTurn, un modèle préentraîné sur des conversations audio à double canal qui génère de manière autonome les futures paroles des deux interlocuteurs pour apprendre implicitement la dynamique conversationnelle et prédire avec précision les signaux de prise de parole, surpassant ainsi les approches existantes en réduisant les interruptions et en anticipant plus tôt les transitions.

Shangeth RajaaTue, 10 Ma💬 cs.CL

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

Cet article présente une étude systématique sur le raisonnement des modèles audio-langage face aux émotions ambiguës, en reformulant la reconnaissance comme un problème de distribution et en proposant un cadre d'apprentissage combinant un objectif aligné sur les perceptions humaines et une supervision structurée par chaîne de pensée, ce qui améliore les performances sur les jeux de données IEMOCAP et CREMA-D.

Xiaofeng Yu, Jiaheng Dong, Jean Honorio, Abhirup Ghosh, Hong Jia, Ting DangTue, 10 Ma💻 cs

Quantifying Cross-Lingual Transfer in Paralinguistic Speech Tasks

Cet article introduit la Matrice de Transfert Interlinguistique (CLTM), une méthode systématique pour quantifier les interactions entre paires de langues dans des tâches paralinguistiques, révélant que l'impact des données d'une langue source sur les performances d'une langue cible varie de manière significative selon la tâche et la langue, contredisant ainsi l'idée que ces tâches sont purement agnostiques à la langue.

Pol Buitrago, Oriol Pareras, Federico Costa, Javier HernandoTue, 10 Ma💬 cs.CL

Bootstrapping Audiovisual Speech Recognition in Zero-AV-Resource Scenarios with Synthetic Visual Data

Ce papier propose un cadre d'apprentissage de la reconnaissance audiovisuelle de la parole pour des langues sans ressources, en générant des flux visuels synthétiques par synchronisation labiale d'images statiques avec de l'audio réel, permettant d'entraîner un modèle performant sur le catalan sans corpus vidéo annoté.

Pol Buitrago, Pol Gàlvez, Oriol Pareras, Javier HernandoTue, 10 Ma💬 cs.CL

Computational modeling of early language learning from acoustic speech and audiovisual input without linguistic priors

Ce chapitre examine comment les modèles computationnels auto-supervisés et ancrés dans le visuel permettent d'expliquer l'acquisition précoce du langage à partir de la parole et de l'input audiovisuel sans recourir à des prérequis linguistiques forts, en reliant ces simulations de plus en plus réalistes aux données empiriques sur le développement infantile.

Okko RäsänenTue, 10 Ma💬 cs.CL