Benchmarking Speech Systems for Frontline Health Conversations: The DISPLACE-M Challenge

Dieser Artikel stellt den DISPLACE-M-Challenge vor, der ein Benchmark für konversationsbasierte KI in der medizinischen Versorgung einführt, indem er einen Datensatz mit 55 Stunden Aufnahmen sowie Baselines für vier Aufgaben wie Sprecherdiarisierung und automatische Spracherkennung bereitstellt, um Systeme in lauten, mehrsprachigen Umgebungen zu evaluieren.

Dhanya E, Ankita Meena, Manas Nanivadekar + 11 more2026-03-06⚡ eess

The PARLO Dementia Corpus: A German Multi-Center Resource for Alzheimer's Disease

Dieses Paper stellt das PARLO Dementia Corpus (PDC) vor, eine erste öffentlich zugängliche, klinisch validierte deutsche Ressource mit Sprachaufnahmen und multimodalen Daten von Alzheimer-Patienten und gesunden Kontrollpersonen, die die Entwicklung nicht-invasiver, sprachbasierter Diagnoseverfahren für neurodegenerative Erkrankungen ermöglicht.

Franziska Braun, Christopher Witzl, Florian Hönig + 3 more2026-03-06⚡ eess

Temporal Pooling Strategies for Training-Free Anomalous Sound Detection with Self-Supervised Audio Embeddings

Diese Arbeit stellt eine systematische Evaluierung von Temporal-Pooling-Strategien für trainingsfreie Anomalieerkennung vor, bei der die neu vorgeschlagene relative Abweichungspooling-Methode (RDP) und eine hybride Strategie in Kombination mit vortrainierten Audio-Embeddings auf fünf Benchmark-Datensätzen nachweislich die bisherige State-of-the-Art-Leistung übertreffen.

Kevin Wilkinghoff, Sarthak Yadav, Zheng-Hua Tan2026-03-06💻 cs

An Approach to Simultaneous Acquisition of Real-Time MRI Video, EEG, and Surface EMG for Articulatory, Brain, and Muscle Activity During Speech Production

Diese Studie stellt einen neuartigen Ansatz zur gleichzeitigen Erfassung von Echtzeit-MRT, EEG und Oberflächen-EMG vor, der durch eine maßgeschneiderte Artefaktunterdrückung erstmals eine umfassende Analyse der neuronalen, muskulären und artikulatorischen Prozesse der Sprachproduktion ermöglicht.

Jihwan Lee, Parsa Razmara, Kevin Huang + 16 more2026-03-06🤖 cs.AI

BabAR: from phoneme recognition to developmental measures of young children's speech production

Die Autoren stellen BabAR vor, ein systemübergreifendes phonetisches Erkennungssystem für kindliche Sprache, das auf der neu erstellten TinyVox-Datenbank trainiert wurde und durch die Analyse von Fehlermustern sowie den Abgleich mit entwicklungspsychologischen Maßstäben als geeignetes Werkzeug für groß angelegte Studien zur Sprachentwicklung junger Kinder validiert wird.

Marvin Lavechin, Elika Bergelson, Roger Levy2026-03-06⚡ eess

Exploring the potential and limitations of Model Merging for Multi-Domain Adaptation in ASR

Diese Arbeit untersucht die Eignung von Modell-Merging für die Mehrdomänen-Anpassung in der automatischen Spracherkennung, stellt mit BoostedTSV-M einen neuen Algorithmus vor, der die numerische Stabilität verbessert, und zeigt, dass dieser Ansatz die Leistung einer vollständigen Feinabstimmung für europäisches Portugiesisch übertrifft, während die Generalisierungsfähigkeit erhalten bleibt.

Carlos Carvalho, Francisco Teixeira, Thomas Rolland + 1 more2026-03-06💬 cs.CL

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Die Arbeit schließt die Lücke in der Bewertung von Musikgenerierungsmodellen, indem sie ein umfassendes Ökosystem für Reward-Modelle unter kompositorischen multimodalen Anweisungen (CMI) einführt, das aus einem großen Datensatz, einem menschlich annotierten Korpus und einem einheitlichen Benchmark besteht, um die Ausrichtung auf Musikalität und Text-Musik-Konsistenz zu verbessern.

Yinghao Ma, Haiwen Xia, Hewei Gao + 9 more2026-03-05🤖 cs.AI

Escaping the BLEU Trap: A Signal-Grounded Framework with Decoupled Semantic Guidance for EEG-to-Text Decoding

Die Arbeit stellt SemKey vor, ein neuartiges Framework zur EEG-zu-Text-Decodierung, das durch die Entkopplung semantischer Ziele und eine signalgefundene Architektur die häufigen Probleme von Halluzinationen und der irreführenden BLEU-Metrik überwindet, um eine präzisere und diversere Sprachgenerierung aus neuronalen Signalen zu erreichen.

Yuchen Wang, Haonan Wang, Yu Guo + 2 more2026-03-05🤖 cs.AI

Automated Measurement of Geniohyoid Muscle Thickness During Speech Using Deep Learning and Ultrasound

Die Studie stellt SMMA vor, ein auf Deep Learning basierendes, vollautomatisiertes Framework zur präzisen Messung der Geniohyoid-Muskeldicke während der Sprache, das manuelle Annotationen überflüssig macht und neue Einblicke in die Sprachmotorik sowie potenzielle Anwendungen bei der Diagnose von Sprech- und Schluckstörungen ermöglicht.

Alisher Myrgyyassov, Bruce Xiao Wang, Yu Sun + 4 more2026-03-05🤖 cs.LG