LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio

Il paper presenta LongAudio-RAG, un framework ibrido che risolve il problema della risposta a domande su audio di lunga durata convertendo i flussi audio in eventi acustici strutturati e recuperabili tramite SQL, permettendo così a un LLM di generare risposte precise con grounding temporale e ridotte allucinazioni, anche in un'architettura edge-cloud.

Naveen Vakada, Kartik Hegde, Arvind Krishna Sridhar, Yinyi Guo, Erik VisserTue, 10 Ma🤖 cs.LG

Toward Multimodal Industrial Fault Analysis: A Single-Speed Chain Conveyor Dataset with Audio and Vibration Signals

Questo lavoro presenta un nuovo dataset multimodale per l'analisi dei guasti industriali, raccolto da un trasportatore a catena monovelocità e comprendente segnali audio e vibrazionali, progettato per supportare la ricerca sulla fusione multimodale e fornire protocolli di valutazione standardizzati per la rilevazione e la classificazione dei guasti in condizioni operative realistiche.

Zhang Chen, Yucong Zhang, Xiaoxiao Miao, Ming LiTue, 10 Ma💻 cs

Towards Objective Gastrointestinal Auscultation: Automated Segmentation and Annotation of Bowel Sound Patterns

Questo studio presenta un sistema automatizzato basato su sensori acustici indossabili e modelli di intelligenza artificiale per la segmentazione e classificazione dei suoni intestinali, che riduce il tempo di annotazione manuale del 70% e offre agli clinici uno strumento diagnostico oggettivo e quantitativo con un'accuratezza superiore al 96%.

Zahra Mansour, Verena Uslar, Dirk Weyhe, Danilo Hollosi, Nils StrodthoffTue, 10 Ma🤖 cs.LG

Scaling Self-Supervised Speech Models Uncovers Deep Linguistic Relationships: Evidence from the Pacific Cluster

Lo studio dimostra che scalare i modelli di linguaggio auto-supervisionati da 126 a 4.017 lingue rivela un cambiamento qualitativo non lineare che permette di catturare sia le relazioni genealogiche profonde che i contatti linguistici a lungo termine, come evidenziato dalla formazione di un robusto macro-cluster nel Pacifico basato su firme acustiche condivise.

Minu Kim, Hoirin Kim, David R. MortensenTue, 10 Ma💬 cs.CL

Seeing the Context: Rich Visual Context-Aware Speech Recognition via Multimodal Reasoning

Il paper propone VASR, un sistema di riconoscimento vocale contestuale che utilizza un ragionamento multimodale a catena di pensiero (AV-CoT) per integrare efficacemente evidenze visive oltre al movimento delle labbra, superando il problema della dominanza di una singola modalità e ottenendo prestazioni all'avanguardia.

Wenjie Tian, Mingchen Shao, Bingshen Mu, Xuelong Geng, Chengyou Wang, Yujie Liao, Zhixian Zhao, Ziyu Zhang, Jingbin Hu, Mengqi Wei, Lei XieTue, 10 Ma💻 cs

Evaluating Parkinson's Disease Detection in Anonymized Speech: A Performance and Acoustic Analysis

Lo studio valuta il compromesso tra privacy e rilevamento del morbo di Parkinson nella voce, dimostrando che l'anonimizzazione tramite kNN-VC, pur proteggendo l'identità, preserva sufficienti caratteristiche acustiche per mantenere un'alta accuratezza diagnostica, a differenza del metodo STT-TTS che degrada le prestazioni eliminando le informazioni prosodiche.

Carlos Franzreb, Francisco Teixeira, Ben Luks, Sebastian Möller, Alberto AbadTue, 10 Ma💻 cs

WhispEar: A Bi-directional Framework for Scaling Whispered Speech Conversion via Pseudo-Parallel Whisper Generation

Il paper presenta WhispEar, un framework bidirezionale che utilizza la generazione di sussurri pseudo-paralleli da parte di un modello di conversione normale-sussurrato per scalare l'addestramento della conversione sussurro-parlato, superando le limitazioni dei dati e ottenendo risultati superiori rispetto ai metodi esistenti.

Zihao Fang, Yingda Shen, Zifan Guan, Tongtong Song, Zhenyi Liu, Zhizheng WuTue, 10 Ma💻 cs

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

Questo lavoro presenta il primo studio sistematico sul ragionamento consapevole dell'ambiguità nei grandi modelli audio-linguistici, riformulando il riconoscimento delle emozioni come un problema distribuzionale e dimostrando miglioramenti significativi attraverso un obiettivo allineato alle distribuzioni percettive umane e una supervisione strutturata del pensiero a catena.

Xiaofeng Yu, Jiaheng Dong, Jean Honorio, Abhirup Ghosh, Hong Jia, Ting DangTue, 10 Ma💻 cs

Quantifying Cross-Lingual Transfer in Paralinguistic Speech Tasks

Questo studio introduce la Matrice di Transfer Cross-Lingual (CLTM), un metodo sistematico per quantificare le interazioni cross-linguistiche in compiti paralinguistici come l'identificazione del genere e la verifica del parlante, rivelando attraverso l'uso di un encoder multilingue basato su HuBERT che l'efficacia del transfer dipende in modo sistematico sia dal compito specifico che dalle lingue coinvolte.

Pol Buitrago, Oriol Pareras, Federico Costa, Javier HernandoTue, 10 Ma💬 cs.CL

Bootstrapping Audiovisual Speech Recognition in Zero-AV-Resource Scenarios with Synthetic Visual Data

Il paper propone un framework di riconoscimento del parlato audiovisivo (AVSR) per scenari privi di risorse, che utilizza stream visivi sintetici generati tramite sincronizzazione labiale su immagini statiche per addestrare modelli su lingue come il catalano, ottenendo prestazioni vicine allo stato dell'arte e superiori ai baselines audio-only.

Pol Buitrago, Pol Gàlvez, Oriol Pareras, Javier HernandoTue, 10 Ma💬 cs.CL

Computational modeling of early language learning from acoustic speech and audiovisual input without linguistic priors

Questo capitolo esamina i recenti progressi nei modelli computazionali che, attraverso l'apprendimento auto-supervisionato e la fondazione visiva, spiegano come gli infanti acquisiscano il linguaggio da input acustici e audiovisivi senza ricorrere a precondizioni linguistiche, dimostrando come principi di apprendimento condivisi possano unificare diverse teorie sullo sviluppo cognitivo.

Okko RäsänenTue, 10 Ma💬 cs.CL

Benchmarking Language Modeling for Lossless Compression of Full-Fidelity Audio

Il paper introduce Trilobyte, un nuovo schema di tokenizzazione a livello di byte che rende fattibile la compressione audio lossless basata su modelli linguistici per audio ad alta fedeltà (fino a 24 bit), superando i limiti computazionali delle tokenizzazioni precedenti e dimostrando prestazioni superiori al formato FLAC, sebbene con guadagni di compressione che diminuiscono all'aumentare della profondità di bit.

Phillip Long, Zachary Novack, Chris DonahueTue, 10 Ma🤖 cs.LG