TCG CREST System Description for the DISPLACE-M Challenge

Dieser Bericht beschreibt das TCG CREST-System für die DISPLACE-M-Herausforderung, das durch den Einsatz des hybriden End-to-End-Modells Diarizen in Kombination mit einer optimierten Agglomerativen Hierarchischen Clustering-Methode eine relative Verbesserung der Sprecherdiarisierungsfehlerquote (DER) von etwa 39 % im Vergleich zur SpeechBrain-Baseline erreichte und den sechsten Platz unter 11 Teams belegte.

Nikhil Raghav, Md SahidullahTue, 10 Ma🤖 cs.LG

Seeing the Context: Rich Visual Context-Aware Speech Recognition via Multimodal Reasoning

Die Arbeit stellt VASR vor, ein multimodales System, das durch einen Audio-Visuellen Chain-of-Thought (AV-CoT) reiche visuelle Kontextinformationen wie Szenen und Bildschirmtext nutzt, um die Spracherkennung zu verbessern und das Problem der einseitigen Abhängigkeit von einer einzelnen Modalität zu lösen.

Wenjie Tian, Mingchen Shao, Bingshen Mu, Xuelong Geng, Chengyou Wang, Yujie Liao, Zhixian Zhao, Ziyu Zhang, Jingbin Hu, Mengqi Wei, Lei XieTue, 10 Ma💻 cs

Evaluating Parkinson's Disease Detection in Anonymized Speech: A Performance and Acoustic Analysis

Diese Studie zeigt, dass die Erkennung von Parkinson-Krankheit aus anonymisierter Sprache durch den Einsatz des kNN-VC-Verfahrens möglich ist, da es im Gegensatz zum STT-TTS-Ansatz die für die Diagnose entscheidenden prosodischen Merkmale weitgehend erhält und dabei einen akzeptablen Kompromiss zwischen Datenschutz und Diagnosegenauigkeit bietet.

Carlos Franzreb, Francisco Teixeira, Ben Luks, Sebastian Möller, Alberto AbadTue, 10 Ma💻 cs

Analysis-Driven Procedural Generation of an Engine Sound Dataset with Embedded Control Annotations

Die Autoren stellen einen analysebasierten Rahmen zur Generierung eines öffentlichen Datensatzes mit prozedural erzeugten Motorengeräuschen und präzisen Betriebszustands-Annotationen vor, der durch die Extraktion harmonischer Strukturen aus realen Aufnahmen und deren Weiterverarbeitung in einem parametrischen Synthesizer die Lücke bei kostengünstigen, sauberen Trainingsdaten für die akustische Modellierung und neuronale Synthese schließt.

Robin Doerfler, Lonce WyseTue, 10 Ma🤖 cs.LG

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

Diese Arbeit stellt einen neuen Ansatz vor, der die mehrdeutige Emotionserkennung als verteilungsorientiertes Schlussfolgerungsproblem neu formuliert und durch eine mehrdeutigkeitsbewusste Zielfunktion sowie strukturierte Chain-of-Thought-Supervision die reasoning-Fähigkeiten von großen Audio-Sprachmodellen verbessert.

Xiaofeng Yu, Jiaheng Dong, Jean Honorio, Abhirup Ghosh, Hong Jia, Ting DangTue, 10 Ma💻 cs

Quantifying Cross-Lingual Transfer in Paralinguistic Speech Tasks

Diese Studie führt die Cross-Lingual Transfer Matrix (CLTM) ein, um systematisch den Einfluss von Quell- auf Zielsprachendaten bei paralinguistischen Aufgaben wie Geschlechteridentifikation und Sprecherüberprüfung zu quantifizieren und zeigt dabei, dass trotz der Annahme von Sprachunabhängigkeit signifikante, aufgabenspezifische sprachabhängige Transfermuster bestehen.

Pol Buitrago, Oriol Pareras, Federico Costa, Javier HernandoTue, 10 Ma💬 cs.CL

Bootstrapping Audiovisual Speech Recognition in Zero-AV-Resource Scenarios with Synthetic Visual Data

Die vorgestellte Studie demonstriert, dass ein Framework zur Audiovisuellen Spracherkennung für ressourcenarme Sprachen durch die Generierung synthetischer Videodaten mittels Lip-Syncing realer Audioaufnahmen mit statischen Gesichtsbildern erfolgreich bootstrapped werden kann, was in einer Anwendung auf Katalanisch zu einer nahezu state-of-the-art Leistung führt.

Pol Buitrago, Pol Gàlvez, Oriol Pareras, Javier HernandoTue, 10 Ma💬 cs.CL

Are Deep Speech Denoising Models Robust to Adversarial Noise?

Die Studie zeigt, dass aktuelle Deep-Learning-Sprachentstörungssysteme durch psychoakustisch getarnte adversariale Störgeräusche so manipuliert werden können, dass sie unverständlichen Unsinn erzeugen, obwohl die Störungen für Menschen kaum wahrnehmbar sind, was die Notwendigkeit von Gegenmaßnahmen für den Einsatz in sicherheitskritischen Anwendungen unterstreicht.

Will Schwarzer, Neel Chaudhari, Philip S. Thomas, Andrea Fanelli, Xiaoyu LiuThu, 12 Ma⚡ eess