V2A-DPO: Omni-Preference Optimization for Video-to-Audio Generation

Die Arbeit stellt V2A-DPO vor, ein neuartiges Framework zur direkten Präferenzoptimierung für flussbasierte Video-zu-Audio-Generierungsmodelle, das durch ein umfassendes AudioScore-Bewertungssystem, eine automatisierte Datengenerierungspipeline und eine Curriculum-Learning-Strategie die menschlichen Präferenzen in Bezug auf semantische Konsistenz, zeitliche Ausrichtung und klangliche Qualität verbessert und damit den aktuellen Stand der Technik übertrifft.

Nolan Chan, Timmy Gang, Yongqian Wang, Yuzhe Liang, Dingdong WangFri, 13 Ma⚡ eess

Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition

Diese Arbeit stellt ein Transformer-basiertes Framework für die audio-visuelle Emotionserkennung vor, das mithilfe von temporär ausgerichteten rotierenden Positionseingebettungen (TaRoPE) und einem Cross-Temporal Matching-Verlust die zeitliche Ausrichtung heterogener Modalitäten verbessert und so die Leistung gegenüber bestehenden Baselines steigert.

Inyong Koo, yeeun Seong, Minseok Son, Jaehyuk Jang, Changick KimFri, 13 Ma⚡ eess

Huntington Disease Automatic Speech Recognition with Biomarker Supervision

Diese Studie stellt eine systematische Untersuchung zur automatischen Spracherkennung bei Huntington-Krankheit vor, die durch die Einführung einer biomarkerbasierten auxiliary Supervision und die Anpassung von Modellen an pathologische Sprachmerkmale die Wortfehlerrate signifikant senkt und dabei zeigt, dass sich Fehlermuster in Abhängigkeit vom Schweregrad der Erkrankung spezifisch verändern.

Charles L. Wang, Cady Chen, Ziwei Gong, Julia HirschbergFri, 13 Ma🤖 cs.LG

Can LLMs Help Localize Fake Words in Partially Fake Speech?

Die Studie untersucht, ob ein auf Text trainiertes Sprachmodell zur Lokalisierung gefälschter Wörter in teilweise manipulierter Sprache eingesetzt werden kann, und stellt fest, dass das Modell zwar in-domäneneffektiv ist, jedoch zu stark auf spezifische Trainingsmuster angewiesen ist, was die Verallgemeinerung auf unbekannte Bearbeitungsstile erschwert.

Lin Zhang, Thomas Thebaud, Zexin Cai, Sanjeev Khudanpur, Daniel Povey, Leibny Paola García-Perera, Matthew Wiesner, Nicholas AndrewsFri, 13 Ma⚡ eess

Cough activity detection for automatic tuberculosis screening

Die Studie zeigt, dass ein auf XLS-R basierendes Modell mit nur den ersten drei Schichten die Erkennung von Hustenereignissen in Audiodaten für die Tuberkulose-Screening-Programme in Südafrika und Uganda mit hoher Präzision ermöglicht und dabei rechenintensive Alternativen wie den Audio Spectrogram Transformer übertrifft.

Joshua Jansen van Vüren, Devendra Singh Parihar, Daphne Naidoo, Kimsey Zajac, Willy Ssengooba, Grant Theron, Thomas NieslerFri, 13 Ma⚡ eess

Continued Pretraining for Low-Resource Swahili ASR: Achieving State-of-the-Art Performance with Minimal Labeled Data

Die Studie zeigt, dass durch fortgesetztes Vortraining mit Pseudo-Labels und anschließendes Feinabstimmen auf nur 20.000 gelabelten Swahili-Daten ein State-of-the-Art-Ergebnis von 3,24 % Wortfehlerrate erreicht wird, was eine relative Verbesserung von 82 % gegenüber der Basislinie und 61 % gegenüber dem bisherigen akademischen Rekord darstellt.

Hillary Mutisya, John MuganeFri, 13 Ma⚡ eess

SEMamba++: A General Speech Restoration Framework Leveraging Global, Local, and Periodic Spectral Patterns

Die Arbeit stellt SEMamba++ vor, ein allgemeines Framework zur Sprachwiederherstellung, das durch die Einführung von Frequency GLP und einem multi-resolutionen Zeit-Frequenz-Dual-Verarbeitungsblock spezifische spektrale Muster wie Periodizität und Multi-Resolution-Analysen effizient nutzt, um bei geringem Rechenaufwand den aktuellen Stand der Technik zu übertreffen.

Yongjoon Lee, Jung-Woo ChoiFri, 13 Ma⚡ eess

Causal Prosody Mediation for Text-to-Speech:Counterfactual Training of Duration, Pitch, and Energy in FastSpeech2

Die Autoren stellen ein neuartiges kausales Prosodie-Mediations-Framework für das Text-zu-Sprache-System vor, das die FastSpeech2-Architektur durch explizite Emotionskonditionierung und kontrafaktische Trainingsziele erweitert, um emotionale Prosodie von linguistischem Inhalt zu entkoppeln und so eine präzisere Kontrolle über Dauer, Tonhöhe und Energie bei gleichzeitiger Verbesserung von Natürlichkeit und Emotionsdarstellung zu ermöglichen.

Suvendu Sekhar MohantyFri, 13 Ma🤖 cs.AI

Affect Decoding in Phonated and Silent Speech Production from Surface EMG

Die Studie stellt einen neuen Datensatz vor und zeigt, dass die Emotionserkennung aus Oberflächen-EMG-Signalen des Gesichts und des Halses sowohl bei phonierter als auch bei stummer Sprache zuverlässig möglich ist, wobei Frustration besonders gut mit einem AUC-Wert von 0,845 klassifiziert werden kann.

Simon Pistrosch, Kleanthis Avramidis, Tiantian Feng, Jihwan Lee, Monica Gonzalez-Machorro, Shrikanth Narayanan, Björn W. SchullerFri, 13 Ma⚡ eess

Resurfacing Paralinguistic Awareness in Large Audio Language Models

Die Arbeit stellt ein paralinguistisch erweitertes Feinabstimmungsverfahren (PE-FT) vor, das durch gezielte Schichtanalyse und eine duale Klassifizierungskopf-Architektur Large Audio Language Models befähigt, paralinguistische Hinweise effektiv zu nutzen und dabei sogar die Leistung einer vollständigen Schicht-Feinabstimmung übertrifft.

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition

Die Arbeit stellt Dr. SHAP-AV vor, ein Framework zur Analyse der Beitragsverteilung von Audio- und Visualmodalitäten in der audiovisuellen Spracherkennung mittels Shapley-Werten, das aufzeigt, wie Modelle unter Rauschen zwar visuell dominieren, aber eine starke Audio-Bias beibehalten, und dabei SNR als treibenden Faktor für die Modalitätsbewertung identifiziert.

Umberto Cappellazzo, Stavros Petridis, Maja PanticFri, 13 Ma⚡ eess