eess.AS papers | Gist.Science

SEMamba++: A General Speech Restoration Framework Leveraging Global, Local, and Periodic Spectral Patterns

In dit paper wordt SEMamba++ voorgesteld, een efficiënt speech-restauratiekader dat State-Space-modellen combineert met specifieke spraakkenmerken, zoals frequentieperiodiciteit en multi-resolutie analyse, om de prestaties aanzienlijk te verbeteren.

Yongjoon Lee, Jung-Woo ChoiFri, 13 Ma⚡ eess

RAF: Relativistic Adversarial Feedback For Universal Speech Synthesis

Dit paper introduceert RAF (Relativistic Adversarial Feedback), een nieuwe trainingsmethode voor GAN-vocoders die gebruikmaakt van zelf-supervised leermodellen en relativistische koppeling om de geluidskwaliteit en generalisatie te verbeteren, zelfs met aanzienlijk minder parameters dan bestaande methoden.

Yongjoon Lee, Jung-Woo ChoiFri, 13 Ma⚡ eess

Affect Decoding in Phonated and Silent Speech Production from Surface EMG

Deze studie introduceert een dataset en toont aan dat oppervlakte-EMG-sensoren van het gezicht en de nek emotionele expressies, met name frustratie, betrouwbaar kunnen decoderen tijdens zowel gesproken als stilte spraak, wat de weg vrijmaakt voor affectbewuste interfaces voor stilte spraak.

Simon Pistrosch, Kleanthis Avramidis, Tiantian Feng, Jihwan Lee, Monica Gonzalez-Machorro, Shrikanth Narayanan, Björn W. SchullerFri, 13 Ma⚡ eess

ReDimNet2: Scaling Speaker Verification via Time-Pooled Dimension Reshaping

Het paper introduceert ReDimNet2, een verbeterde neurale netwerkarchitectuur voor sprekerherkenning die door tijdsgepoolde dimensieherstructurering een efficiëntere schaalbaarheid bereikt, wat resulteert in een verbeterde prestatie-kostbalans op de VoxCeleb1-benchmarks vergeleken met de oorspronkelijke ReDimNet.

Ivan Yakovlev, Anton OkhotnikovFri, 13 Ma⚡ eess

Acoustic-to-Articulatory Inversion of Clean Speech Using an MRI-Trained Model

Dit onderzoek toont aan dat een model, getraind op ontdane MRI-spraak, ook effectief kan worden gebruikt voor de reconstructie van articulatie uit schone spraak, met een nauwkeurigheid (RMSE van 1,56 mm) die vergelijkbaar is met die van MRI-gebaseerde methoden.

Sofiane Azzouz, Pierre-André Vuissoz, Yves LaprieFri, 13 Ma⚡ eess

Reconstruction of the Vocal Tract from Speech via Phonetic Representations Using MRI Data

Dit artikel presenteert een vergelijkende studie die aantoont dat het reconstrueren van de spraakweg uit spraak via MRI-gegevens het beste presteert wanneer er gebruik wordt gemaakt van handmatig gecorrigeerde fonetische segmentatie, wat resulteert in een nauwkeurigheid die dicht bij de MFCC-baseline ligt.

Sofiane Azzouz, Pierre-André Vuissoz, Yves LaprieFri, 13 Ma⚡ eess

Silent Speech Interfaces in the Era of Large Language Models: A Comprehensive Taxonomy and Systematic Review

Deze systematische review biedt een uitgebreide taxonomie van Stille Spraakinterfaces die, door de integratie van Large Language Models en diverse sensormodi, de overgang markeert van laboratoriumapparatuur naar praktische, privacyvriendelijke draagbare technologieën die spraakherkenning mogelijk maken zonder geluid.

Kele Xu, Yifan Wang, Ming Feng, Qisheng Xu, Wuyang Chen, Yutao Dou, Cheng Yang, Huaimin WangFri, 13 Ma⚡ eess

Resurfacing Paralinguistic Awareness in Large Audio Language Models

Dit artikel introduceert een paralinguïstisch-versterkt fijntuningprotocol (PE-FT) voor grote audio-taalmodellen dat, via selectieve laag-fijntuning en een extra classificatiekop, de vaak verwaarloosde paralinguïstische bewustwording effectief herwint en zelfs presteert boven de traditionele aanpak van het fijntunen van alle lagen.

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition

Dit paper introduceert Dr. SHAP-AV, een framework dat Shapley-waarden gebruikt om de bijdragen van audio- en visuele modaliteiten in AVSR-modellen te ontcijferen, waarbij wordt vastgesteld dat hoewel modellen bij ruis verschuiven naar visuele afhankelijkheid, er een aanhoudende audio-bias blijft bestaan die wordt gedreven door het signaal-ruisverhouding (SNR).

Umberto Cappellazzo, Stavros Petridis, Maja PanticFri, 13 Ma⚡ eess

Controllable Dance Generation with Style-Guided Motion Diffusion

Deze paper introduceert Style-Guided Motion Diffusion (SGMD), een Transformer-gebaseerd model dat muziekkenmerken combineert met stijlprompts en een ruimtetijdmaskeringmechanisme om realistische, stijlvol consistente en volledig controleerbare danssequenties te genereren.

Hongsong Wang, Ying Zhu, Xin Geng + 1 more2026-03-11⚡ eess

ExSampling: a system for the real-time ensemble performance of field-recorded environmental sounds

Dit paper introduceert ExSampling, een geïntegreerd systeem dat diep leermethoden gebruikt om veldopnames van omgevingsgeluiden in real-time te mappen naar Ableton Live, waardoor interactieve ensemble-uitvoeringen tussen opnemers, componisten en performers mogelijk worden.

Atsuya Kobayashi, Reo Anzai, Nao Tokui2026-03-10⚡ eess

Relationship between objective and subjective perceptual measures of speech in individuals with head and neck cancer

Deze studie toont aan dat er sterke correlaties bestaan tussen subjectieve perceptuele beoordelingen en objectieve akoestische maatstaven van spraak bij patiënten met hoofd-halstumoren, wat suggereert dat een enkele intelligibiliteitsmeting voldoende kan zijn voor klinische monitoring.

Bence Mark Halpern, Thomas Tienkamp, Teja Rebernik + 4 more2026-03-10⚡ eess

A Large-Scale Probing Analysis of Speaker-Specific Attributes in Self-Supervised Speech Representations

Deze studie onthult door middel van een grootschalige analyse van elf zelftoezichtmodellen voor spraak hoe deze modellen sprekerspecifieke informatie coderen, waarbij wordt vastgesteld dat diepere lagen onverwacht identiteit herstellen en dat tussenliggende representaties dynamische prosodie beter vastleggen dan gespecialiseerde spreker-embeddings.

Aemon Yat Fei Chiu, Kei Ching Fung, Roger Tsz Yeung Li + 2 more2026-03-06💻 cs

TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

Deze paper introduceert TSPC, een tweestapsarchitectuur die op fonemen is gebaseerd en een uitgebreide Vietnamese fonemenset als tussenrepresentatie gebruikt om de woordfoutenratio voor code-switching tussen het Vietnamees en Engels aanzienlijk te verlagen.

Tran Nguyen Anh, Truong Dinh Dung, Vo Van Nam + 1 more2026-03-06💻 cs

BabyHuBERT: Multilingual Self-Supervised Learning for Segmenting Speakers in Child-Centered Long-Form Recordings

Dit paper introduceert BabyHuBERT, een meertalig zelftoezichtend spraakmodel getraind op 13.000 uur aan kinderopnames dat aanzienlijk beter presteert dan bestaande modellen bij het segmenteren van sprekers in daglange, natuurlijke kinderopnames.

Théo Charlot, Tarek Kunze, Maxime Poli + 3 more2026-03-06💻 cs

SAM: A Mamba-2 State-Space Audio-Language Model

Het artikel introduceert SAM, een audio-taalmodel met een Mamba-2-architectuur dat, ondanks minder parameters, presteert op het niveau van grotere transformer-modellen en via systematische analyse belangrijke ontwerpprincipes voor effectieve audio-taalmodellen op basis van state-space-modellen blootlegt.

Taehan Lee, Jaehan Jung, Hyukjun Lee2026-03-06💻 cs

Conversational Speech Reveals Structural Robustness Failures in SpeechLLM Backbones

Deze studie toont aan dat LLM-backbones in spraakmodellen vaak faalden in structurele robuustheid vertonen bij conversaties met disfluënties, waarbij redeneringsmodellen systematisch vloeiende inhoud verwijderen ten gunste van semantische abstractie.

Maria Teleki, Sai Janjur, Haoran Liu + 11 more2026-03-06💻 cs

Noise-to-Notes: Diffusion-based Generation and Refinement for Automatic Drum Transcription

Dit paper introduceert Noise-to-Notes (N2N), een generatief diffusion-framework dat automatisch drumtranscriptie herdefinieert als een conditionele generatieve taak en door middel van een Annealed Pseudo-Huber loss en features van muziek-foundationmodellen nieuwe state-of-the-art prestaties bereikt.

Michael Yeung, Keisuke Toyama, Toya Teramoto + 2 more2026-03-06💻 cs

Schrödinger Bridge Mamba for One-Step Speech Enhancement

Dit artikel introduceert Schrödinger Bridge Mamba (SBM), een nieuw model dat de Schrödinger Bridge-training combineert met de Mamba-architectuur om spraakverbetering in één stap te realiseren met superieure prestaties en real-time capaciteit.

Jing Yang, Sirui Wang, Chao Wu + 2 more2026-03-06💻 cs

Multi-Loss Learning for Speech Emotion Recognition with Energy-Adaptive Mixup and Frame-Level Attention

Dit artikel presenteert een multi-loss leerframework voor spraakemotierecognitie dat energie-adaptieve mixup en frame-level aandacht integreert om de prestaties op vier standaarddatasets te verbeteren door middel van geavanceerde augmentatie en verliesfuncties.

Cong Wang, Yizhong Geng, Yuhua Wen + 7 more2026-03-06💻 cs

← Vorige Volgende →