eess.AS articoli | Gist.Science

LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio

Il paper presenta LongAudio-RAG, un framework ibrido che risolve il problema della risposta a domande su audio di lunga durata convertendo i flussi audio in eventi acustici strutturati e recuperabili tramite SQL, permettendo così a un LLM di generare risposte precise con grounding temporale e ridotte allucinazioni, anche in un'architettura edge-cloud.

Naveen Vakada, Kartik Hegde, Arvind Krishna Sridhar, Yinyi Guo, Erik VisserTue, 10 Ma🤖 cs.LG

TCG CREST System Description for the DISPLACE-M Challenge

Questo rapporto descrive il sistema TCG CREST per la sfida DISPLACE-M, dimostrando che l'uso del sistema ibrido end-to-end Diarizen con clustering gerarchico agglomerativo e filtraggio mediano ha permesso di ottenere una riduzione del 39% dell'errore di diarizzazione rispetto alla baseline SpeechBrain, posizionando il team al sesto posto su 11 partecipanti.

Nikhil Raghav, Md SahidullahTue, 10 Ma🤖 cs.LG

Toward Multimodal Industrial Fault Analysis: A Single-Speed Chain Conveyor Dataset with Audio and Vibration Signals

Questo lavoro presenta un nuovo dataset multimodale per l'analisi dei guasti industriali, raccolto da un trasportatore a catena monovelocità e comprendente segnali audio e vibrazionali, progettato per supportare la ricerca sulla fusione multimodale e fornire protocolli di valutazione standardizzati per la rilevazione e la classificazione dei guasti in condizioni operative realistiche.

Zhang Chen, Yucong Zhang, Xiaoxiao Miao, Ming LiTue, 10 Ma💻 cs

Towards Objective Gastrointestinal Auscultation: Automated Segmentation and Annotation of Bowel Sound Patterns

Questo studio presenta un sistema automatizzato basato su sensori acustici indossabili e modelli di intelligenza artificiale per la segmentazione e classificazione dei suoni intestinali, che riduce il tempo di annotazione manuale del 70% e offre agli clinici uno strumento diagnostico oggettivo e quantitativo con un'accuratezza superiore al 96%.

Zahra Mansour, Verena Uslar, Dirk Weyhe, Danilo Hollosi, Nils StrodthoffTue, 10 Ma🤖 cs.LG

Scaling Self-Supervised Speech Models Uncovers Deep Linguistic Relationships: Evidence from the Pacific Cluster

Lo studio dimostra che scalare i modelli di linguaggio auto-supervisionati da 126 a 4.017 lingue rivela un cambiamento qualitativo non lineare che permette di catturare sia le relazioni genealogiche profonde che i contatti linguistici a lungo termine, come evidenziato dalla formazione di un robusto macro-cluster nel Pacifico basato su firme acustiche condivise.

Minu Kim, Hoirin Kim, David R. MortensenTue, 10 Ma💬 cs.CL

Seeing the Context: Rich Visual Context-Aware Speech Recognition via Multimodal Reasoning

Il paper propone VASR, un sistema di riconoscimento vocale contestuale che utilizza un ragionamento multimodale a catena di pensiero (AV-CoT) per integrare efficacemente evidenze visive oltre al movimento delle labbra, superando il problema della dominanza di una singola modalità e ottenendo prestazioni all'avanguardia.

Wenjie Tian, Mingchen Shao, Bingshen Mu, Xuelong Geng, Chengyou Wang, Yujie Liao, Zhixian Zhao, Ziyu Zhang, Jingbin Hu, Mengqi Wei, Lei XieTue, 10 Ma💻 cs

Fast and Flexible Audio Bandwidth Extension via Vocos

Il paper propone un modello di estensione della banda audio basato su Vocos che genera contenuti ad alta frequenza mancanti per segnali da 8 a 48 kHz, ottenendo prestazioni di alta qualità e throughput estremo grazie a un'architettura neurale flessibile e un raffinatore leggero.

Yatharth SharmaTue, 10 Ma🤖 cs.LG

Towards Lightweight Adaptation of Speech Enhancement Models in Real-World Environments

Questo lavoro propone un framework di adattamento leggero per modelli di potenziamento vocale che, aggiornando meno dell'1% dei parametri tramite adattatori a basso rango e apprendimento auto-supervisionato, migliora significativamente la robustezza in scenari acustici reali dinamici con costi computazionali ridotti.

Longbiao Cheng, Shih-Chii LiuTue, 10 Ma🤖 cs.LG

Evaluating Parkinson's Disease Detection in Anonymized Speech: A Performance and Acoustic Analysis

Lo studio valuta il compromesso tra privacy e rilevamento del morbo di Parkinson nella voce, dimostrando che l'anonimizzazione tramite kNN-VC, pur proteggendo l'identità, preserva sufficienti caratteristiche acustiche per mantenere un'alta accuratezza diagnostica, a differenza del metodo STT-TTS che degrada le prestazioni eliminando le informazioni prosodiche.

Carlos Franzreb, Francisco Teixeira, Ben Luks, Sebastian Möller, Alberto AbadTue, 10 Ma💻 cs

Analysis-Driven Procedural Generation of an Engine Sound Dataset with Embedded Control Annotations

Questo articolo presenta un framework di generazione procedurale basato sull'analisi che produce il "Procedural Engine Sounds Dataset", un insieme di 19 ore di suoni di motori sintetizzati con annotazioni di controllo RPM e coppia a precisione campionaria, validato per supportare la ricerca nel campo della modellazione acustica e della sintesi neurale.

Robin Doerfler, Lonce WyseTue, 10 Ma🤖 cs.LG

SoundWeaver: Semantic Warm-Starting for Text-to-Audio Diffusion Serving

SoundWeaver è il primo sistema di serving training-free e agnostico rispetto al modello che accelera la generazione di audio da testo tramite modelli di diffusione, riducendo la latenza fino a 3 volte riutilizzando audio cached semanticamente simili senza comprometterne la qualità.

Ayush Barik, Sofia Stoica, Nikhil Sarda, Arnav Kethana, Abhinav Khanduja, Muchen Xu, Fan LaiTue, 10 Ma💻 cs

WhispEar: A Bi-directional Framework for Scaling Whispered Speech Conversion via Pseudo-Parallel Whisper Generation

Il paper presenta WhispEar, un framework bidirezionale che utilizza la generazione di sussurri pseudo-paralleli da parte di un modello di conversione normale-sussurrato per scalare l'addestramento della conversione sussurro-parlato, superando le limitazioni dei dati e ottenendo risultati superiori rispetto ai metodi esistenti.

Zihao Fang, Yingda Shen, Zifan Guan, Tongtong Song, Zhenyi Liu, Zhizheng WuTue, 10 Ma💻 cs

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

Il paper presenta FoleyFlow, un nuovo metodo che allinea encoder audio-visivi tramite modellazione mascherata e utilizza un flusso condizionale dinamico per generare audio sincronizzato semanticamente e ritmicamente con i video di input, superando le prestazioni dei metodi precedenti.

Shentong Mo, Yibing SongTue, 10 Ma🤖 cs.LG

DualTurn: Learning Turn-Taking from Dual-Channel Generative Speech Pretraining

Il paper presenta DualTurn, un modello preaddestrato su audio conversazionale a doppio canale che genera autonomamente le future interazioni vocali per imparare dinamiche naturali di turno e prevedere azioni di agente con prestazioni superiori rispetto agli approcci esistenti.

Shangeth RajaaTue, 10 Ma💬 cs.CL

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

Questo lavoro presenta il primo studio sistematico sul ragionamento consapevole dell'ambiguità nei grandi modelli audio-linguistici, riformulando il riconoscimento delle emozioni come un problema distribuzionale e dimostrando miglioramenti significativi attraverso un obiettivo allineato alle distribuzioni percettive umane e una supervisione strutturata del pensiero a catena.

Xiaofeng Yu, Jiaheng Dong, Jean Honorio, Abhirup Ghosh, Hong Jia, Ting DangTue, 10 Ma💻 cs

Quantifying Cross-Lingual Transfer in Paralinguistic Speech Tasks

Questo studio introduce la Matrice di Transfer Cross-Lingual (CLTM), un metodo sistematico per quantificare le interazioni cross-linguistiche in compiti paralinguistici come l'identificazione del genere e la verifica del parlante, rivelando attraverso l'uso di un encoder multilingue basato su HuBERT che l'efficacia del transfer dipende in modo sistematico sia dal compito specifico che dalle lingue coinvolte.

Pol Buitrago, Oriol Pareras, Federico Costa, Javier HernandoTue, 10 Ma💬 cs.CL

Bootstrapping Audiovisual Speech Recognition in Zero-AV-Resource Scenarios with Synthetic Visual Data

Il paper propone un framework di riconoscimento del parlato audiovisivo (AVSR) per scenari privi di risorse, che utilizza stream visivi sintetici generati tramite sincronizzazione labiale su immagini statiche per addestrare modelli su lingue come il catalano, ottenendo prestazioni vicine allo stato dell'arte e superiori ai baselines audio-only.

Pol Buitrago, Pol Gàlvez, Oriol Pareras, Javier HernandoTue, 10 Ma💬 cs.CL

Computational modeling of early language learning from acoustic speech and audiovisual input without linguistic priors

Questo capitolo esamina i recenti progressi nei modelli computazionali che, attraverso l'apprendimento auto-supervisionato e la fondazione visiva, spiegano come gli infanti acquisiscano il linguaggio da input acustici e audiovisivi senza ricorrere a precondizioni linguistiche, dimostrando come principi di apprendimento condivisi possano unificare diverse teorie sullo sviluppo cognitivo.

Okko RäsänenTue, 10 Ma💬 cs.CL

Benchmarking Language Modeling for Lossless Compression of Full-Fidelity Audio

Il paper introduce Trilobyte, un nuovo schema di tokenizzazione a livello di byte che rende fattibile la compressione audio lossless basata su modelli linguistici per audio ad alta fedeltà (fino a 24 bit), superando i limiti computazionali delle tokenizzazioni precedenti e dimostrando prestazioni superiori al formato FLAC, sebbene con guadagni di compressione che diminuiscono all'aumentare della profondità di bit.

Phillip Long, Zachary Novack, Chris DonahueTue, 10 Ma🤖 cs.LG

Are Deep Speech Denoising Models Robust to Adversarial Noise?

Questo studio dimostra che quattro recenti modelli di soppressione del rumore profondo possono essere resi inintelligibili dall'aggiunta di rumore avversario psicologicamente nascosto, evidenziando la necessità di contromisure pratiche prima del loro utilizzo in applicazioni critiche per la sicurezza.

Will Schwarzer, Neel Chaudhari, Philip S. Thomas, Andrea Fanelli, Xiaoyu LiuThu, 12 Ma⚡ eess

← Precedente Successivo →