eess.AS Arbeiten | Gist.Science

RA-QA: A Benchmarking System for Respiratory Audio Question Answering Under Real-World Heterogeneity

Die Studie stellt RA-QA vor, ein umfassendes Benchmark-System mit einem standardisierten Datenpipeline und multimodalen Frage-Antwort-Paaren, das die Leistungsfähigkeit bestehender KI-Modelle bei der Analyse von Atemgeräuschen unter realen, heterogenen Bedingungen evaluiert und deren Grenzen aufzeigt.

Gaia A. Bertolino, Yuwei Zhang, Tong Xia + 2 more2026-03-06💻 cs

Fine-grained Soundscape Control for Augmented Hearing

Die Studie stellt Aurchestra vor, ein System für Hearables, das erstmals eine feingranulare, Echtzeit-Steuerung mehrerer überlappender Schallquellen direkt auf ressourcenbeschränkten Geräten ermöglicht, indem es eine dynamische Schnittstelle und ein optimiertes Multi-Output-Extraktionsnetzwerk kombiniert, um die Umgebung wie ein Audio-Mischpult individuell anzupassen.

Seunghyun Oh, Malek Itani, Aseem Gauri + 1 more2026-03-06💻 cs

VoxKnesset: A Large-Scale Longitudinal Hebrew Speech Dataset for Aging Speaker Modeling

Das Paper stellt VoxKnesset vor, einen großen, longitudinalen hebräischen Sprachdatensatz mit Parlamentsaufnahmen von 393 Sprechern über 15 Jahre, der genutzt wird, um die Auswirkungen des Alterns auf die Sprechererkennung und Altersvorhersage zu untersuchen und robuste Sprachsysteme zu entwickeln.

Yanir Marmor, Arad Zulti, David Krongauz + 4 more2026-03-06💻 cs

Benchmarking Speech Systems for Frontline Health Conversations: The DISPLACE-M Challenge

Dieser Artikel stellt den DISPLACE-M-Challenge vor, der ein Benchmark für konversationsbasierte KI in der medizinischen Versorgung einführt, indem er einen Datensatz mit 55 Stunden Aufnahmen sowie Baselines für vier Aufgaben wie Sprecherdiarisierung und automatische Spracherkennung bereitstellt, um Systeme in lauten, mehrsprachigen Umgebungen zu evaluieren.

Dhanya E, Ankita Meena, Manas Nanivadekar + 11 more2026-03-06⚡ eess

The PARLO Dementia Corpus: A German Multi-Center Resource for Alzheimer's Disease

Dieses Paper stellt das PARLO Dementia Corpus (PDC) vor, eine erste öffentlich zugängliche, klinisch validierte deutsche Ressource mit Sprachaufnahmen und multimodalen Daten von Alzheimer-Patienten und gesunden Kontrollpersonen, die die Entwicklung nicht-invasiver, sprachbasierter Diagnoseverfahren für neurodegenerative Erkrankungen ermöglicht.

Franziska Braun, Christopher Witzl, Florian Hönig + 3 more2026-03-06⚡ eess

Temporal Pooling Strategies for Training-Free Anomalous Sound Detection with Self-Supervised Audio Embeddings

Diese Arbeit stellt eine systematische Evaluierung von Temporal-Pooling-Strategien für trainingsfreie Anomalieerkennung vor, bei der die neu vorgeschlagene relative Abweichungspooling-Methode (RDP) und eine hybride Strategie in Kombination mit vortrainierten Audio-Embeddings auf fünf Benchmark-Datensätzen nachweislich die bisherige State-of-the-Art-Leistung übertreffen.

Kevin Wilkinghoff, Sarthak Yadav, Zheng-Hua Tan2026-03-06💻 cs

An Approach to Simultaneous Acquisition of Real-Time MRI Video, EEG, and Surface EMG for Articulatory, Brain, and Muscle Activity During Speech Production

Diese Studie stellt einen neuartigen Ansatz zur gleichzeitigen Erfassung von Echtzeit-MRT, EEG und Oberflächen-EMG vor, der durch eine maßgeschneiderte Artefaktunterdrückung erstmals eine umfassende Analyse der neuronalen, muskulären und artikulatorischen Prozesse der Sprachproduktion ermöglicht.

Jihwan Lee, Parsa Razmara, Kevin Huang + 16 more2026-03-06🤖 cs.AI

Voice Timbre Attribute Detection with Compact and Interpretable Training-Free Acoustic Parameters

Diese Arbeit stellt einen kompakten, trainingsfreien und interpretierbaren Satz akustischer Parameter vor, der für die Erkennung von Timbre-Attributen in der Sprache konzipiert ist und dabei konventionelle Merkmale sowie überwachte DNN-Einbettungen in der Leistung übertrifft, ohne dabei hohe Rechenkosten zu verursachen.

Aemon Yat Fei Chiu, Yujia Xiao, Qiuqiang Kong + 1 more2026-03-06⚡ eess

PolyBench: A Benchmark for Compositional Reasoning in Polyphonic Audio

Die Arbeit stellt PolyBench vor, einen Benchmark zur Evaluierung des kompositorischen Denkens in polyphoner Audioverarbeitung, der zeigt, dass aktuelle Large Audio Language Models bei der Analyse mehrerer gleichzeitiger Klänge signifikante Schwächen aufweisen.

Yuanjian Chen, Yang Xiao, Han Yin + 3 more2026-03-06💻 cs

BabAR: from phoneme recognition to developmental measures of young children's speech production

Die Autoren stellen BabAR vor, ein systemübergreifendes phonetisches Erkennungssystem für kindliche Sprache, das auf der neu erstellten TinyVox-Datenbank trainiert wurde und durch die Analyse von Fehlermustern sowie den Abgleich mit entwicklungspsychologischen Maßstäben als geeignetes Werkzeug für groß angelegte Studien zur Sprachentwicklung junger Kinder validiert wird.

Marvin Lavechin, Elika Bergelson, Roger Levy2026-03-06⚡ eess

Visual-Informed Speech Enhancement Using Attention-Based Beamforming

Die vorgestellte Arbeit stellt ein neuartiges, multimodales System namens VI-NBFNet vor, das durch die Integration von Lippenbewegungen aus visuellen Daten in ein auf Aufmerksamkeit basierendes Beamforming die Sprachverbesserung in komplexen akustischen Umgebungen mit mehreren Sprechern und Störgeräuschen signifikant verbessert.

Chihyun Liu, Jiaxuan Fan, Mingtung Sun + 3 more2026-03-06🤖 cs.AI

Exploring the potential and limitations of Model Merging for Multi-Domain Adaptation in ASR

Diese Arbeit untersucht die Eignung von Modell-Merging für die Mehrdomänen-Anpassung in der automatischen Spracherkennung, stellt mit BoostedTSV-M einen neuen Algorithmus vor, der die numerische Stabilität verbessert, und zeigt, dass dieser Ansatz die Leistung einer vollständigen Feinabstimmung für europäisches Portugiesisch übertrifft, während die Generalisierungsfähigkeit erhalten bleibt.

Carlos Carvalho, Francisco Teixeira, Thomas Rolland + 1 more2026-03-06💬 cs.CL

Hierarchical Decoding for Discrete Speech Synthesis with Multi-Resolution Spoof Detection

Die Arbeit stellt MSpoof-TTS vor, ein trainingsfreies Inferenzframework, das durch mehrstufige Spoof-Erkennung und hierarchisches Decodieren die Robustheit und Qualität diskreter Sprachsynthese verbessert, ohne die Modellparameter anzupassen.

Junchuan Zhao, Minh Duc Vu, Ye Wang2026-03-06💻 cs

Knowing When to Quit: Probabilistic Early Exits for Speech Separation

Die Autoren stellen eine probabilistische Architektur für die Ein-Kanal-Sprachtrennung vor, die durch unsicherheitsbasierte Frühbeendigung die Rechenleistung dynamisch an die Anforderungen anpasst und dabei sowohl Recheneffizienz als auch eine hohe Rekonstruktionsqualität gewährleistet.

Kenny Falkær Olsen, Mads Østergaard, Karl Ulbæk + 4 more2026-03-05🤖 cs.LG

LadderSym: A Multimodal Interleaved Transformer for Music Practice Error Detection

Die Arbeit stellt LadderSym vor, einen neuartigen multimodalen Transformer, der durch einen Zwei-Stream-Encoder mit Inter-Stream-Ausrichtung und die Nutzung symbolischer Notentexte als Decoder-Prompts die Genauigkeit der Fehlererkennung beim Musiküben im Vergleich zu bisherigen State-of-the-Art-Methoden erheblich verbessert.

Benjamin Shiue-Hal Chou, Purvish Jajal, Nick John Eliopoulos + 4 more2026-03-05🤖 cs.AI

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Die Arbeit schließt die Lücke in der Bewertung von Musikgenerierungsmodellen, indem sie ein umfassendes Ökosystem für Reward-Modelle unter kompositorischen multimodalen Anweisungen (CMI) einführt, das aus einem großen Datensatz, einem menschlich annotierten Korpus und einem einheitlichen Benchmark besteht, um die Ausrichtung auf Musikalität und Text-Musik-Konsistenz zu verbessern.

Yinghao Ma, Haiwen Xia, Hewei Gao + 9 more2026-03-05🤖 cs.AI

Escaping the BLEU Trap: A Signal-Grounded Framework with Decoupled Semantic Guidance for EEG-to-Text Decoding

Die Arbeit stellt SemKey vor, ein neuartiges Framework zur EEG-zu-Text-Decodierung, das durch die Entkopplung semantischer Ziele und eine signalgefundene Architektur die häufigen Probleme von Halluzinationen und der irreführenden BLEU-Metrik überwindet, um eine präzisere und diversere Sprachgenerierung aus neuronalen Signalen zu erreichen.

Yuchen Wang, Haonan Wang, Yu Guo + 2 more2026-03-05🤖 cs.AI

Automated Measurement of Geniohyoid Muscle Thickness During Speech Using Deep Learning and Ultrasound

Die Studie stellt SMMA vor, ein auf Deep Learning basierendes, vollautomatisiertes Framework zur präzisen Messung der Geniohyoid-Muskeldicke während der Sprache, das manuelle Annotationen überflüssig macht und neue Einblicke in die Sprachmotorik sowie potenzielle Anwendungen bei der Diagnose von Sprech- und Schluckstörungen ermöglicht.

Alisher Myrgyyassov, Bruce Xiao Wang, Yu Sun + 4 more2026-03-05🤖 cs.LG

ACES: Accent Subspaces for Coupling, Explanations, and Stress-Testing in Automatic Speech Recognition

Die Arbeit ACES identifiziert accent-spezifische Unterräume in ASR-Modellen als diagnostische Werkzeuge, die aufzeigen, dass diese Merkmale tief mit entscheidenden Erkennungsmerkmalen verflochten sind und eine einfache Entfernung zur Verbesserung der Fairness nicht ausreicht.

Swapnil Parekh2026-03-05🤖 cs.AI

Multi-Stage Music Source Restoration with BandSplit-RoFormer Separation and HiFi++ GAN

Dieser technische Bericht stellt das System des CP-JKU-Teams für den MSR ICASSP Challenge 2025 vor, das Musikquellen-Wiederherstellung durch eine mehrstufige Pipeline aus einem BandSplit-RoFormer-Trenner mit Curriculum-Learning und einem spezialisierten HiFi++ GAN-Waveform-Restorer realisiert.

Tobias Morocutti, Emmanouil Karystinaios, Jonathan Greif + 1 more2026-03-05🤖 cs.LG

← Zurück Weiter →