The PARLO Dementia Corpus: A German Multi-Center Resource for Alzheimer's Disease

Questo articolo presenta il Corpus PARLO per la Demenza, il primo dataset pubblico tedesco multi-centrico e clinicamente validato che raccoglie registrazioni vocali, trascrizioni e dati clinici da pazienti con malattia di Alzheimer e controlli sani, al fine di facilitare la ricerca sull'uso dell'analisi del linguaggio per la diagnosi non invasiva del declino cognitivo.

Franziska Braun, Christopher Witzl, Florian Hönig + 3 more2026-03-06⚡ eess

Temporal Pooling Strategies for Training-Free Anomalous Sound Detection with Self-Supervised Audio Embeddings

Questo articolo presenta una valutazione sistematica delle strategie di pooling temporale per la rilevazione di suoni anomali senza addestramento, introducendo il pooling di deviazione relativa (RDP) e una strategia ibrida che superano le prestazioni degli approcci esistenti su cinque dataset di riferimento, inclusi risultati superiori a tutti i sistemi addestrati precedentemente riportati nel dataset DCASE2025.

Kevin Wilkinghoff, Sarthak Yadav, Zheng-Hua Tan2026-03-06💻 cs

An Approach to Simultaneous Acquisition of Real-Time MRI Video, EEG, and Surface EMG for Articulatory, Brain, and Muscle Activity During Speech Production

Il documento presenta il primo approccio per l'acquisizione simultanea di risonanza magnetica in tempo reale, EEG e EMG di superficie, integrando un pipeline di soppressione degli artefatti per studiare in modo completo i processi neurali, muscolari e articolatori alla base della produzione del parlato.

Jihwan Lee, Parsa Razmara, Kevin Huang + 16 more2026-03-06🤖 cs.AI

LadderSym: A Multimodal Interleaved Transformer for Music Practice Error Detection

Questo articolo presenta LadderSym, un nuovo trasformatore multimodale che supera i metodi esistenti per il rilevamento degli errori nella pratica musicale, ottenendo significativi miglioramenti nell'accuratezza grazie a un'architettura a due stream con allineamento inter-flusso e all'uso di prompt simbolici per ridurre le ambiguità spettrali.

Benjamin Shiue-Hal Chou, Purvish Jajal, Nick John Eliopoulos + 4 more2026-03-05🤖 cs.AI

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Questo paper introduce CMI-RewardBench, un ecosistema completo per la valutazione dei modelli di ricompensa musicale basato su istruzioni multimodali compositive, che include dataset su larga scala, un benchmark unificato e modelli di ricompensa efficienti che dimostrano una forte correlazione con i giudizi umani e abilitano un efficace scaling al momento dell'inferenza.

Yinghao Ma, Haiwen Xia, Hewei Gao + 9 more2026-03-05🤖 cs.AI

Escaping the BLEU Trap: A Signal-Grounded Framework with Decoupled Semantic Guidance for EEG-to-Text Decoding

Il paper presenta SemKey, un nuovo framework che supera i limiti delle attuali tecniche di decodifica EEG-testo, come il bias semantico e l'inganno delle metriche BLEU, integrando obiettivi semantici disaccoppiati e un meccanismo di attenzione guidato dai segnali neurali per garantire una generazione di testo fedele e priva di allucinazioni.

Yuchen Wang, Haonan Wang, Yu Guo + 2 more2026-03-05🤖 cs.AI

ACES: Accent Subspaces for Coupling, Explanations, and Stress-Testing in Automatic Speech Recognition

Il paper introduce ACES, un metodo di audit basato su sottospazi rappresentativi che rivela come le informazioni relative agli accenti nei sistemi ASR siano concentrate in sottospazi a bassa dimensionalità e profondamente intrecciate con le caratteristiche critiche per il riconoscimento, rendendo questi sottospazi strumenti diagnostici essenziali piuttosto che semplici leve per l'eliminazione delle disparità.

Swapnil Parekh2026-03-05🤖 cs.AI