Affect Decoding in Phonated and Silent Speech Production from Surface EMG

Deze studie introduceert een dataset en toont aan dat oppervlakte-EMG-sensoren van het gezicht en de nek emotionele expressies, met name frustratie, betrouwbaar kunnen decoderen tijdens zowel gesproken als stilte spraak, wat de weg vrijmaakt voor affectbewuste interfaces voor stilte spraak.

Simon Pistrosch, Kleanthis Avramidis, Tiantian Feng, Jihwan Lee, Monica Gonzalez-Machorro, Shrikanth Narayanan, Björn W. SchullerFri, 13 Ma⚡ eess

Silent Speech Interfaces in the Era of Large Language Models: A Comprehensive Taxonomy and Systematic Review

Deze systematische review biedt een uitgebreide taxonomie van Stille Spraakinterfaces die, door de integratie van Large Language Models en diverse sensormodi, de overgang markeert van laboratoriumapparatuur naar praktische, privacyvriendelijke draagbare technologieën die spraakherkenning mogelijk maken zonder geluid.

Kele Xu, Yifan Wang, Ming Feng, Qisheng Xu, Wuyang Chen, Yutao Dou, Cheng Yang, Huaimin WangFri, 13 Ma⚡ eess

Resurfacing Paralinguistic Awareness in Large Audio Language Models

Dit artikel introduceert een paralinguïstisch-versterkt fijntuningprotocol (PE-FT) voor grote audio-taalmodellen dat, via selectieve laag-fijntuning en een extra classificatiekop, de vaak verwaarloosde paralinguïstische bewustwording effectief herwint en zelfs presteert boven de traditionele aanpak van het fijntunen van alle lagen.

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition

Dit paper introduceert Dr. SHAP-AV, een framework dat Shapley-waarden gebruikt om de bijdragen van audio- en visuele modaliteiten in AVSR-modellen te ontcijferen, waarbij wordt vastgesteld dat hoewel modellen bij ruis verschuiven naar visuele afhankelijkheid, er een aanhoudende audio-bias blijft bestaan die wordt gedreven door het signaal-ruisverhouding (SNR).

Umberto Cappellazzo, Stavros Petridis, Maja PanticFri, 13 Ma⚡ eess

A Large-Scale Probing Analysis of Speaker-Specific Attributes in Self-Supervised Speech Representations

Deze studie onthult door middel van een grootschalige analyse van elf zelftoezichtmodellen voor spraak hoe deze modellen sprekerspecifieke informatie coderen, waarbij wordt vastgesteld dat diepere lagen onverwacht identiteit herstellen en dat tussenliggende representaties dynamische prosodie beter vastleggen dan gespecialiseerde spreker-embeddings.

Aemon Yat Fei Chiu, Kei Ching Fung, Roger Tsz Yeung Li + 2 more2026-03-06💻 cs