SEMamba++: A General Speech Restoration Framework Leveraging Global, Local, and Periodic Spectral Patterns

Die Arbeit stellt SEMamba++ vor, ein allgemeines Framework zur Sprachwiederherstellung, das durch die Einführung von Frequency GLP und einem multi-resolutionen Zeit-Frequenz-Dual-Verarbeitungsblock spezifische spektrale Muster wie Periodizität und Multi-Resolution-Analysen effizient nutzt, um bei geringem Rechenaufwand den aktuellen Stand der Technik zu übertreffen.

Yongjoon Lee, Jung-Woo ChoiFri, 13 Ma⚡ eess

Affect Decoding in Phonated and Silent Speech Production from Surface EMG

Die Studie stellt einen neuen Datensatz vor und zeigt, dass die Emotionserkennung aus Oberflächen-EMG-Signalen des Gesichts und des Halses sowohl bei phonierter als auch bei stummer Sprache zuverlässig möglich ist, wobei Frustration besonders gut mit einem AUC-Wert von 0,845 klassifiziert werden kann.

Simon Pistrosch, Kleanthis Avramidis, Tiantian Feng, Jihwan Lee, Monica Gonzalez-Machorro, Shrikanth Narayanan, Björn W. SchullerFri, 13 Ma⚡ eess

Silent Speech Interfaces in the Era of Large Language Models: A Comprehensive Taxonomy and Systematic Review

Diese umfassende Übersicht stellt eine neue Taxonomie für Stille-Sprach-Schnittstellen vor, die durch die Integration von Large Language Models die Informationslücke physiologischer Biosignale schließen, die Genauigkeit für den praktischen Einsatz steigern und den Weg zu unauffälligen, ethisch gesicherten Wearables ebnen.

Kele Xu, Yifan Wang, Ming Feng, Qisheng Xu, Wuyang Chen, Yutao Dou, Cheng Yang, Huaimin WangFri, 13 Ma⚡ eess

Resurfacing Paralinguistic Awareness in Large Audio Language Models

Die Arbeit stellt ein paralinguistisch erweitertes Feinabstimmungsverfahren (PE-FT) vor, das durch gezielte Schichtanalyse und eine duale Klassifizierungskopf-Architektur Large Audio Language Models befähigt, paralinguistische Hinweise effektiv zu nutzen und dabei sogar die Leistung einer vollständigen Schicht-Feinabstimmung übertrifft.

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition

Die Arbeit stellt Dr. SHAP-AV vor, ein Framework zur Analyse der Beitragsverteilung von Audio- und Visualmodalitäten in der audiovisuellen Spracherkennung mittels Shapley-Werten, das aufzeigt, wie Modelle unter Rauschen zwar visuell dominieren, aber eine starke Audio-Bias beibehalten, und dabei SNR als treibenden Faktor für die Modalitätsbewertung identifiziert.

Umberto Cappellazzo, Stavros Petridis, Maja PanticFri, 13 Ma⚡ eess

A Large-Scale Probing Analysis of Speaker-Specific Attributes in Self-Supervised Speech Representations

Diese Studie analysiert durch ein groß angelegtes Probing-Experiment an 11 selbstüberwachten Sprachmodellen, wie diese sprecher-spezifische Informationen wie Akustik, Prosodie und paralinguistische Merkmale kodieren, und widerlegt dabei die Annahme, dass die finalen Schichten rein linguistischen Inhalt enthalten, indem sie zeigen, dass größere Modelle ihre Identität in tiefen Schichten wiederherstellen und mittlere Schichten Prosodie besser erfassen als spezialisierte Sprecher-Embeddings.

Aemon Yat Fei Chiu, Kei Ching Fung, Roger Tsz Yeung Li + 2 more2026-03-06💻 cs

Conversational Speech Reveals Structural Robustness Failures in SpeechLLM Backbones

Die Studie zeigt, dass Sprachmodelle als Rückgrat von SpeechLLMs bei der Verarbeitung spontaner, unflüssiger Konversationen strukturelle Robustheitslücken aufweisen, wobei Reasoning-Modelle durch eine Tendenz zur semantischen Abstraktion flüssige Inhalte übermäßig löschen und Feinabstimmung zwar Spitzenleistungen erzielt, aber die Generalisierungsfähigkeit beeinträchtigt.

Maria Teleki, Sai Janjur, Haoran Liu + 11 more2026-03-06💻 cs