eess.AS articoli | Gist.Science

RA-QA: A Benchmarking System for Respiratory Audio Question Answering Under Real-World Heterogeneity

Il documento presenta RA-QA, un nuovo sistema di benchmarking che armonizza dataset pubblici per creare un vasto insieme di 9 milioni di coppie domanda-risposta audio-respiratorie, valutando le prestazioni e i limiti dei modelli multimodali attuali in condizioni di eterogeneità del mondo reale.

Gaia A. Bertolino, Yuwei Zhang, Tong Xia + 2 more2026-03-06💻 cs

Fine-grained Soundscape Control for Augmented Hearing

Il paper introduce Aurchestra, il primo sistema che consente un controllo sonoro fine e in tempo reale su dispositivi acustici limitati, permettendo agli utenti di isolare e regolare individualmente fino a cinque sorgenti sonore sovrapposte in ambienti reali.

Seunghyun Oh, Malek Itani, Aseem Gauri + 1 more2026-03-06💻 cs

VoxKnesset: A Large-Scale Longitudinal Hebrew Speech Dataset for Aging Speaker Modeling

Il paper presenta VoxKnesset, un dataset longitudinale open-source di circa 2.300 ore di discorsi parlamentari ebraici che copre 16 anni, progettato per studiare l'invecchiamento della voce e migliorare la robustezza dei sistemi di elaborazione del parlato.

Yanir Marmor, Arad Zulti, David Krongauz + 4 more2026-03-06💻 cs

Benchmarking Speech Systems for Frontline Health Conversations: The DISPLACE-M Challenge

Il documento presenta la sfida DISPLACE-M, un benchmark per sistemi di intelligenza artificiale conversazionale progettato per analizzare dialoghi medici reali tra operatori sanitari e pazienti, fornendo dataset, sistemi di base e risultati di valutazione per quattro compiti specifici.

Dhanya E, Ankita Meena, Manas Nanivadekar + 11 more2026-03-06⚡ eess

The PARLO Dementia Corpus: A German Multi-Center Resource for Alzheimer's Disease

Questo articolo presenta il Corpus PARLO per la Demenza, il primo dataset pubblico tedesco multi-centrico e clinicamente validato che raccoglie registrazioni vocali, trascrizioni e dati clinici da pazienti con malattia di Alzheimer e controlli sani, al fine di facilitare la ricerca sull'uso dell'analisi del linguaggio per la diagnosi non invasiva del declino cognitivo.

Franziska Braun, Christopher Witzl, Florian Hönig + 3 more2026-03-06⚡ eess

Temporal Pooling Strategies for Training-Free Anomalous Sound Detection with Self-Supervised Audio Embeddings

Questo articolo presenta una valutazione sistematica delle strategie di pooling temporale per la rilevazione di suoni anomali senza addestramento, introducendo il pooling di deviazione relativa (RDP) e una strategia ibrida che superano le prestazioni degli approcci esistenti su cinque dataset di riferimento, inclusi risultati superiori a tutti i sistemi addestrati precedentemente riportati nel dataset DCASE2025.

Kevin Wilkinghoff, Sarthak Yadav, Zheng-Hua Tan2026-03-06💻 cs

An Approach to Simultaneous Acquisition of Real-Time MRI Video, EEG, and Surface EMG for Articulatory, Brain, and Muscle Activity During Speech Production

Il documento presenta il primo approccio per l'acquisizione simultanea di risonanza magnetica in tempo reale, EEG e EMG di superficie, integrando un pipeline di soppressione degli artefatti per studiare in modo completo i processi neurali, muscolari e articolatori alla base della produzione del parlato.

Jihwan Lee, Parsa Razmara, Kevin Huang + 16 more2026-03-06🤖 cs.AI

Voice Timbre Attribute Detection with Compact and Interpretable Training-Free Acoustic Parameters

Questo lavoro propone un insieme compatto di parametri acustici privi di apprendimento per il rilevamento degli attributi del timbro vocale, che, grazie alla loro interpretabilità fisica e al basso costo computazionale, risultano competitivi rispetto ai modelli basati su reti neurali profonde.

Aemon Yat Fei Chiu, Yujia Xiao, Qiuqiang Kong + 1 more2026-03-06⚡ eess

PolyBench: A Benchmark for Compositional Reasoning in Polyphonic Audio

Questo lavoro presenta PolyBench, un benchmark progettato per valutare il ragionamento composizionale in audio polifonico, rivelando che i modelli linguistici audio di ultima generazione mostrano prestazioni significativamente inferiori quando devono elaborare eventi sonori multipli e concorrenti.

Yuanjian Chen, Yang Xiao, Han Yin + 3 more2026-03-06💻 cs

BabAR: from phoneme recognition to developmental measures of young children's speech production

Il paper presenta BabAR, un sistema di riconoscimento fonetico multilingue per la voce infantile addestrato sul corpus TinyVox, che dimostra come l'uso di registrazioni quotidiane e del contesto audio migliori le prestazioni e permetta di derivare misure automatiche dello sviluppo del linguaggio coerenti con le stime scientifiche.

Marvin Lavechin, Elika Bergelson, Roger Levy2026-03-06⚡ eess

Visual-Informed Speech Enhancement Using Attention-Based Beamforming

Il paper propone la VI-NBFNet, una rete neurale di beamforming che integra segnali audio da array di microfoni e informazioni visive estratte dai movimenti delle labbra per migliorare l'enhancement del parlato e la robustezza in scenari complessi e dinamici.

Chihyun Liu, Jiaxuan Fan, Mingtung Sun + 3 more2026-03-06🤖 cs.AI

Exploring the potential and limitations of Model Merging for Multi-Domain Adaptation in ASR

Questo studio esplora il potenziale e i limiti del merging di modelli per l'adattamento multi-dominio nell'ASR, proponendo il nuovo algoritmo BoostedTSV-M che, superando il collasso del rango, supera il fine-tuning completo sul portoghese europeo mantenendo al contempo la generalizzazione fuori distribuzione.

Carlos Carvalho, Francisco Teixeira, Thomas Rolland + 1 more2026-03-06💬 cs.CL

Hierarchical Decoding for Discrete Speech Synthesis with Multi-Resolution Spoof Detection

Il paper presenta MSpoof-TTS, un framework di inferenza senza addestramento che migliora la sintesi vocale discreta zero-shot integrando una rilevazione di spoofing multi-risoluzione in una strategia di decodifica gerarchica per eliminare le imperfezioni e aumentare la robustezza senza modificare i parametri del modello.

Junchuan Zhao, Minh Duc Vu, Ye Wang2026-03-06💻 cs

Knowing When to Quit: Probabilistic Early Exits for Speech Separation

Il paper propone un'architettura neurale per la separazione e il potenziamento della voce che integra un meccanismo di uscita anticipata probabilistico e basato sull'incertezza, permettendo di risparmiare risorse computazionali su dispositivi eterogenei senza compromettere la qualità del segnale ricostruito.

Kenny Falkær Olsen, Mads Østergaard, Karl Ulbæk + 4 more2026-03-05🤖 cs.LG

LadderSym: A Multimodal Interleaved Transformer for Music Practice Error Detection

Questo articolo presenta LadderSym, un nuovo trasformatore multimodale che supera i metodi esistenti per il rilevamento degli errori nella pratica musicale, ottenendo significativi miglioramenti nell'accuratezza grazie a un'architettura a due stream con allineamento inter-flusso e all'uso di prompt simbolici per ridurre le ambiguità spettrali.

Benjamin Shiue-Hal Chou, Purvish Jajal, Nick John Eliopoulos + 4 more2026-03-05🤖 cs.AI

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Questo paper introduce CMI-RewardBench, un ecosistema completo per la valutazione dei modelli di ricompensa musicale basato su istruzioni multimodali compositive, che include dataset su larga scala, un benchmark unificato e modelli di ricompensa efficienti che dimostrano una forte correlazione con i giudizi umani e abilitano un efficace scaling al momento dell'inferenza.

Yinghao Ma, Haiwen Xia, Hewei Gao + 9 more2026-03-05🤖 cs.AI

Escaping the BLEU Trap: A Signal-Grounded Framework with Decoupled Semantic Guidance for EEG-to-Text Decoding

Il paper presenta SemKey, un nuovo framework che supera i limiti delle attuali tecniche di decodifica EEG-testo, come il bias semantico e l'inganno delle metriche BLEU, integrando obiettivi semantici disaccoppiati e un meccanismo di attenzione guidato dai segnali neurali per garantire una generazione di testo fedele e priva di allucinazioni.

Yuchen Wang, Haonan Wang, Yu Guo + 2 more2026-03-05🤖 cs.AI

Automated Measurement of Geniohyoid Muscle Thickness During Speech Using Deep Learning and Ultrasound

Il framework automatizzato SMMA, basato sull'intelligenza artificiale, misura con precisione lo spessore del muscolo genioioideo durante la fonazione, consentendo studi su larga scala dei meccanismi del controllo motorio del parlato e delle patologie di deglutizione.

Alisher Myrgyyassov, Bruce Xiao Wang, Yu Sun + 4 more2026-03-05🤖 cs.LG

ACES: Accent Subspaces for Coupling, Explanations, and Stress-Testing in Automatic Speech Recognition

Il paper introduce ACES, un metodo di audit basato su sottospazi rappresentativi che rivela come le informazioni relative agli accenti nei sistemi ASR siano concentrate in sottospazi a bassa dimensionalità e profondamente intrecciate con le caratteristiche critiche per il riconoscimento, rendendo questi sottospazi strumenti diagnostici essenziali piuttosto che semplici leve per l'eliminazione delle disparità.

Swapnil Parekh2026-03-05🤖 cs.AI

Multi-Stage Music Source Restoration with BandSplit-RoFormer Separation and HiFi++ GAN

Il rapporto tecnico presenta il sistema del team CP-JKU per la sfida MSR ICASSP 2025, che combina un separatore BandSplit-RoFormer addestrato con un curriculum a tre stadi e un restorer HiFi++ GAN specializzato per il recupero di stem strumentali originali da audio mixati e masterizzati.

Tobias Morocutti, Emmanouil Karystinaios, Jonathan Greif + 1 more2026-03-05🤖 cs.LG

← Precedente Successivo →