cs.SD papers | Gist.Science

[b]=[d]-[t]+[p]: Self-supervised Speech Models Discover Phonological Vector Arithmetic

Dit artikel toont aan dat zelftoezichtsspraakmodellen spraak coderen via interpreteerbare en compositionalle fonologische vectoren die lineaire rekenkundige relaties tussen fonemen mogelijk maken.

Kwanghee Choi, Eunjung Yeo, Cheol Jun Cho, David Harwath, David R. MortensenFri, 13 Ma⚡ eess

V2A-DPO: Omni-Preference Optimization for Video-to-Audio Generation

Dit artikel introduceert V2A-DPO, een innovatief Direct Preference Optimization-framework dat specifiek is ontworpen voor flow-based video-naar-audio-generatiemodellen en middels drie kerninnovaties, waaronder een menselijke voorkeur-georiënteerde AudioScore, state-of-the-art prestaties bereikt die de bestaande methoden overtreffen.

Nolan Chan, Timmy Gang, Yongqian Wang, Yuzhe Liang, Dingdong WangFri, 13 Ma⚡ eess

Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition

Deze paper presenteert een Transformer-gebaseerd framework voor audio-visuele emotieherkenning dat middels een multimodale self-attention encoder, Temporally-aligned Rotary Position Embeddings (TaRoPE) en een Cross-Temporal Matching (CTM) loss, effectief de tijdsverschillen tussen audio- en videoframes oplost om de prestaties te verbeteren.

Inyong Koo, yeeun Seong, Minseok Son, Jaehyuk Jang, Changick KimFri, 13 Ma⚡ eess

Uni-ASR: Unified LLM-Based Architecture for Non-Streaming and Streaming Automatic Speech Recognition

In dit artikel wordt Uni-ASR voorgesteld, een unified framework op basis van LLM's dat naadloos zowel niet-streaming als streaming spraakherkenning ondersteunt via een gezamenlijk trainingsparadigma en een contextbewuste fallback-decodestrategie, waardoor hoge nauwkeurigheid wordt bereikt zonder extra latentie.

Yinfeng Xia, Jian Tang, Junfeng Hou, Gaopeng Xu, Haitao YaoFri, 13 Ma💬 cs.CL

Huntington Disease Automatic Speech Recognition with Biomarker Supervision

Deze studie introduceert een systematische aanpak voor automatische spraakherkenning bij de Ziekte van Huntington, waarbij een nieuw klinisch corpus en biomarker-gestuurde supervisie worden gebruikt om de woordfoutpercentages aanzienlijk te verlagen en de foutpatronen op ziekteernst te laten afstemmen.

Charles L. Wang, Cady Chen, Ziwei Gong, Julia HirschbergFri, 13 Ma🤖 cs.LG

Can LLMs Help Localize Fake Words in Partially Fake Speech?

Dit onderzoek toont aan dat een op tekst getrainde Large Language Model (LLM) kan worden ingezet om valse woorden in gedeeltelijk vervalste spraak te lokaliseren via next-token predictie, maar waarschuwt dat het model overmatig afhankelijk is van specifieke bewerkingspatronen uit de trainingsdata, wat de generalisatie naar onbekende bewerkingsstijlen beperkt.

Lin Zhang, Thomas Thebaud, Zexin Cai, Sanjeev Khudanpur, Daniel Povey, Leibny Paola García-Perera, Matthew Wiesner, Nicholas AndrewsFri, 13 Ma⚡ eess

Cough activity detection for automatic tuberculosis screening

Dit artikel presenteert een effectieve aanpak voor automatische tuberculosescreening waarbij een op XLS-R gebaseerd model, dat slechts de eerste drie lagen van het netwerk gebruikt, nauwkeurige hoestsegmenten detecteert en hierdoor de prestaties verbetert ten opzichte van bestaande methoden, wat de haalbaarheid van smartphone-applicaties ondersteunt.

Joshua Jansen van Vüren, Devendra Singh Parihar, Daphne Naidoo, Kimsey Zajac, Willy Ssengooba, Grant Theron, Thomas NieslerFri, 13 Ma⚡ eess

Fair-Gate: Fairness-Aware Interpretable Risk Gating for Sex-Fair Voice Biometrics

Dit paper introduceert Fair-Gate, een interpreteerbaar framework dat de prestatiekloof tussen geslachten in stembiometrie verkleint door demografische shortcuts en feature-entanglement aan te pakken via risicoverlaging en een lokaal complementair gate-mechanisme dat kenmerken expliciet routeert naar identiteits- en geslachtsgebonden paden.

Yangyang Qu, Todisco Massimiliano, Galdi Chiara, Evans NicholasFri, 13 Ma⚡ eess

Continued Pretraining for Low-Resource Swahili ASR: Achieving State-of-the-Art Performance with Minimal Labeled Data

Dit artikel beschrijft hoe door middel van voortgezette pretraining op ongelabelde audio en pseudo-labels, een state-of-the-art prestatie van 3,24% woordfoutpercentage wordt bereikt voor Swahili-spraakherkenning met slechts 20.000 gelabelde voorbeelden, wat een aanzienlijke verbetering is ten opzichte van eerdere systemen.

Hillary Mutisya, John MuganeFri, 13 Ma⚡ eess

Stage-Adaptive Reliability Modeling for Continuous Valence-Arousal Estimation

Dit paper introduceert SAGE, een adaptief framework dat de betrouwbaarheid van audio- en visuele modaliteiten per interactiestadium schat en kalibreert om de continuïteit van valentie-en arousal-schattingen in realistische omgevingen te verbeteren.

Yubeen Lee, Sangeun Lee, Junyeop Cha, Eunil ParkFri, 13 Ma🤖 cs.AI

AnimeScore: A Preference-Based Dataset and Framework for Evaluating Anime-Like Speech Style

Deze paper introduceert AnimeScore, een voorkeursgebaseerd framework dat 15.000 paarwijze beoordelingen en SSL-modellen gebruikt om een objectieve maatstaf te bieden voor het evalueren van 'anime-achtige' stemmen, waarbij wordt aangetoond dat deze stijl wordt bepaald door geresoneerde klankvorming en prosodie in plaats van alleen een hoge toonhoogte.

Joonyong Park, Jerry LiFri, 13 Ma⚡ eess

Toward Complex-Valued Neural Networks for Waveform Generation

Dit paper introduceert ComVo, een complexwaardige neurale vocoder die native complexe aritmetiek, fasekwantisatie en een efficiënt blok-matrixrekenstelsel combineert om de synthesekwaliteit te verbeteren en de trainingstijd met 25% te verkorten ten opzichte van bestaande reëelwaardige iSTFT-gebaseerde benaderingen.

Hyung-Seok Oh, Deok-Hyeon Cho, Seung-Bin Kim, Seong-Whan LeeFri, 13 Ma🤖 cs.AI

SEMamba++: A General Speech Restoration Framework Leveraging Global, Local, and Periodic Spectral Patterns

In dit paper wordt SEMamba++ voorgesteld, een efficiënt speech-restauratiekader dat State-Space-modellen combineert met specifieke spraakkenmerken, zoals frequentieperiodiciteit en multi-resolutie analyse, om de prestaties aanzienlijk te verbeteren.

Yongjoon Lee, Jung-Woo ChoiFri, 13 Ma⚡ eess

RAF: Relativistic Adversarial Feedback For Universal Speech Synthesis

Dit paper introduceert RAF (Relativistic Adversarial Feedback), een nieuwe trainingsmethode voor GAN-vocoders die gebruikmaakt van zelf-supervised leermodellen en relativistische koppeling om de geluidskwaliteit en generalisatie te verbeteren, zelfs met aanzienlijk minder parameters dan bestaande methoden.

Yongjoon Lee, Jung-Woo ChoiFri, 13 Ma⚡ eess

Causal Prosody Mediation for Text-to-Speech:Counterfactual Training of Duration, Pitch, and Energy in FastSpeech2

Deze paper introduceert een nieuw causaal prosodie-mediatiestelsel voor tekst-naar-spraak dat de FastSpeech2-architectuur uitbreidt met contrafactuele training om emotionele prosodie effectief te ontkoppelen van linguïstische inhoud, wat leidt tot een beter controleerbare en expressieve spraaksynthese.

Suvendu Sekhar MohantyFri, 13 Ma🤖 cs.AI

Affect Decoding in Phonated and Silent Speech Production from Surface EMG

Deze studie introduceert een dataset en toont aan dat oppervlakte-EMG-sensoren van het gezicht en de nek emotionele expressies, met name frustratie, betrouwbaar kunnen decoderen tijdens zowel gesproken als stilte spraak, wat de weg vrijmaakt voor affectbewuste interfaces voor stilte spraak.

Simon Pistrosch, Kleanthis Avramidis, Tiantian Feng, Jihwan Lee, Monica Gonzalez-Machorro, Shrikanth Narayanan, Björn W. SchullerFri, 13 Ma⚡ eess

Resurfacing Paralinguistic Awareness in Large Audio Language Models

Dit artikel introduceert een paralinguïstisch-versterkt fijntuningprotocol (PE-FT) voor grote audio-taalmodellen dat, via selectieve laag-fijntuning en een extra classificatiekop, de vaak verwaarloosde paralinguïstische bewustwording effectief herwint en zelfs presteert boven de traditionele aanpak van het fijntunen van alle lagen.

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition

Dit paper introduceert Dr. SHAP-AV, een framework dat Shapley-waarden gebruikt om de bijdragen van audio- en visuele modaliteiten in AVSR-modellen te ontcijferen, waarbij wordt vastgesteld dat hoewel modellen bij ruis verschuiven naar visuele afhankelijkheid, er een aanhoudende audio-bias blijft bestaan die wordt gedreven door het signaal-ruisverhouding (SNR).

Umberto Cappellazzo, Stavros Petridis, Maja PanticFri, 13 Ma⚡ eess

Controllable Dance Generation with Style-Guided Motion Diffusion

Deze paper introduceert Style-Guided Motion Diffusion (SGMD), een Transformer-gebaseerd model dat muziekkenmerken combineert met stijlprompts en een ruimtetijdmaskeringmechanisme om realistische, stijlvol consistente en volledig controleerbare danssequenties te genereren.

Hongsong Wang, Ying Zhu, Xin Geng + 1 more2026-03-11⚡ eess

ExSampling: a system for the real-time ensemble performance of field-recorded environmental sounds

Dit paper introduceert ExSampling, een geïntegreerd systeem dat diep leermethoden gebruikt om veldopnames van omgevingsgeluiden in real-time te mappen naar Ableton Live, waardoor interactieve ensemble-uitvoeringen tussen opnemers, componisten en performers mogelijk worden.

Atsuya Kobayashi, Reo Anzai, Nao Tokui2026-03-10⚡ eess

← Vorige Volgende →