Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition

Deze paper presenteert een Transformer-gebaseerd framework voor audio-visuele emotieherkenning dat middels een multimodale self-attention encoder, Temporally-aligned Rotary Position Embeddings (TaRoPE) en een Cross-Temporal Matching (CTM) loss, effectief de tijdsverschillen tussen audio- en videoframes oplost om de prestaties te verbeteren.

Inyong Koo, yeeun Seong, Minseok Son, Jaehyuk Jang, Changick KimFri, 13 Ma⚡ eess

Can LLMs Help Localize Fake Words in Partially Fake Speech?

Dit onderzoek toont aan dat een op tekst getrainde Large Language Model (LLM) kan worden ingezet om valse woorden in gedeeltelijk vervalste spraak te lokaliseren via next-token predictie, maar waarschuwt dat het model overmatig afhankelijk is van specifieke bewerkingspatronen uit de trainingsdata, wat de generalisatie naar onbekende bewerkingsstijlen beperkt.

Lin Zhang, Thomas Thebaud, Zexin Cai, Sanjeev Khudanpur, Daniel Povey, Leibny Paola García-Perera, Matthew Wiesner, Nicholas AndrewsFri, 13 Ma⚡ eess

Cough activity detection for automatic tuberculosis screening

Dit artikel presenteert een effectieve aanpak voor automatische tuberculosescreening waarbij een op XLS-R gebaseerd model, dat slechts de eerste drie lagen van het netwerk gebruikt, nauwkeurige hoestsegmenten detecteert en hierdoor de prestaties verbetert ten opzichte van bestaande methoden, wat de haalbaarheid van smartphone-applicaties ondersteunt.

Joshua Jansen van Vüren, Devendra Singh Parihar, Daphne Naidoo, Kimsey Zajac, Willy Ssengooba, Grant Theron, Thomas NieslerFri, 13 Ma⚡ eess

Fair-Gate: Fairness-Aware Interpretable Risk Gating for Sex-Fair Voice Biometrics

Dit paper introduceert Fair-Gate, een interpreteerbaar framework dat de prestatiekloof tussen geslachten in stembiometrie verkleint door demografische shortcuts en feature-entanglement aan te pakken via risicoverlaging en een lokaal complementair gate-mechanisme dat kenmerken expliciet routeert naar identiteits- en geslachtsgebonden paden.

Yangyang Qu, Todisco Massimiliano, Galdi Chiara, Evans NicholasFri, 13 Ma⚡ eess

Affect Decoding in Phonated and Silent Speech Production from Surface EMG

Deze studie introduceert een dataset en toont aan dat oppervlakte-EMG-sensoren van het gezicht en de nek emotionele expressies, met name frustratie, betrouwbaar kunnen decoderen tijdens zowel gesproken als stilte spraak, wat de weg vrijmaakt voor affectbewuste interfaces voor stilte spraak.

Simon Pistrosch, Kleanthis Avramidis, Tiantian Feng, Jihwan Lee, Monica Gonzalez-Machorro, Shrikanth Narayanan, Björn W. SchullerFri, 13 Ma⚡ eess

Resurfacing Paralinguistic Awareness in Large Audio Language Models

Dit artikel introduceert een paralinguïstisch-versterkt fijntuningprotocol (PE-FT) voor grote audio-taalmodellen dat, via selectieve laag-fijntuning en een extra classificatiekop, de vaak verwaarloosde paralinguïstische bewustwording effectief herwint en zelfs presteert boven de traditionele aanpak van het fijntunen van alle lagen.

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition

Dit paper introduceert Dr. SHAP-AV, een framework dat Shapley-waarden gebruikt om de bijdragen van audio- en visuele modaliteiten in AVSR-modellen te ontcijferen, waarbij wordt vastgesteld dat hoewel modellen bij ruis verschuiven naar visuele afhankelijkheid, er een aanhoudende audio-bias blijft bestaan die wordt gedreven door het signaal-ruisverhouding (SNR).

Umberto Cappellazzo, Stavros Petridis, Maja PanticFri, 13 Ma⚡ eess