cs.SD papers | Gist.Science

Wave-like behaviour in (0,1) binary sequences

Dit werk presenteert een kwantumgeïnspireerde uitbreiding van het GenomeBits-model om (0,1)-binair sequences, zoals genoomsequenties, te analyseren door een complex golffunctie te gebruiken die karakteristieke geluidsgolf-achtige eigenschappen vertoont.

E. Canessa2026-03-10🔬 physics

Relationship between objective and subjective perceptual measures of speech in individuals with head and neck cancer

Deze studie toont aan dat er sterke correlaties bestaan tussen subjectieve perceptuele beoordelingen en objectieve akoestische maatstaven van spraak bij patiënten met hoofd-halstumoren, wat suggereert dat een enkele intelligibiliteitsmeting voldoende kan zijn voor klinische monitoring.

Bence Mark Halpern, Thomas Tienkamp, Teja Rebernik + 4 more2026-03-10⚡ eess

A Large-Scale Probing Analysis of Speaker-Specific Attributes in Self-Supervised Speech Representations

Deze studie onthult door middel van een grootschalige analyse van elf zelftoezichtmodellen voor spraak hoe deze modellen sprekerspecifieke informatie coderen, waarbij wordt vastgesteld dat diepere lagen onverwacht identiteit herstellen en dat tussenliggende representaties dynamische prosodie beter vastleggen dan gespecialiseerde spreker-embeddings.

Aemon Yat Fei Chiu, Kei Ching Fung, Roger Tsz Yeung Li + 2 more2026-03-06💻 cs

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

InterActHuman is een nieuw kader dat end-to-end menselijke animatie mogelijk maakt met meerdere concepten door modale voorwaarden zoals tekst, afbeeldingen en lokaal geluid nauwkeurig te koppelen aan specifieke ruimtelijke gebieden, waardoor realistische interacties tussen meerdere personen en objecten worden gegenereerd.

Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang + 7 more2026-03-06💻 cs

Vevo2: A Unified and Controllable Framework for Speech and Singing Voice Generation

Dit artikel introduceert Vevo2, een unificerend en controleerbaar framework dat twee geavanceerde audio-tokenizers en een hybride modelleringstijl combineert om zowel spraak als zang te genereren, waarbij de schaarste aan gelabelde zangdata wordt overwonnen en een sterke generalisatievermogen voor diverse synthesetaken wordt bereikt.

Xueyao Zhang, Junan Zhang, Yuancheng Wang + 5 more2026-03-06💻 cs

TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

Deze paper introduceert TSPC, een tweestapsarchitectuur die op fonemen is gebaseerd en een uitgebreide Vietnamese fonemenset als tussenrepresentatie gebruikt om de woordfoutenratio voor code-switching tussen het Vietnamees en Engels aanzienlijk te verlagen.

Tran Nguyen Anh, Truong Dinh Dung, Vo Van Nam + 1 more2026-03-06💻 cs

BabyHuBERT: Multilingual Self-Supervised Learning for Segmenting Speakers in Child-Centered Long-Form Recordings

Dit paper introduceert BabyHuBERT, een meertalig zelftoezichtend spraakmodel getraind op 13.000 uur aan kinderopnames dat aanzienlijk beter presteert dan bestaande modellen bij het segmenteren van sprekers in daglange, natuurlijke kinderopnames.

Théo Charlot, Tarek Kunze, Maxime Poli + 3 more2026-03-06💻 cs

SAM: A Mamba-2 State-Space Audio-Language Model

Het artikel introduceert SAM, een audio-taalmodel met een Mamba-2-architectuur dat, ondanks minder parameters, presteert op het niveau van grotere transformer-modellen en via systematische analyse belangrijke ontwerpprincipes voor effectieve audio-taalmodellen op basis van state-space-modellen blootlegt.

Taehan Lee, Jaehan Jung, Hyukjun Lee2026-03-06💻 cs

Noise-to-Notes: Diffusion-based Generation and Refinement for Automatic Drum Transcription

Dit paper introduceert Noise-to-Notes (N2N), een generatief diffusion-framework dat automatisch drumtranscriptie herdefinieert als een conditionele generatieve taak en door middel van een Annealed Pseudo-Huber loss en features van muziek-foundationmodellen nieuwe state-of-the-art prestaties bereikt.

Michael Yeung, Keisuke Toyama, Toya Teramoto + 2 more2026-03-06💻 cs

Schrödinger Bridge Mamba for One-Step Speech Enhancement

Dit artikel introduceert Schrödinger Bridge Mamba (SBM), een nieuw model dat de Schrödinger Bridge-training combineert met de Mamba-architectuur om spraakverbetering in één stap te realiseren met superieure prestaties en real-time capaciteit.

Jing Yang, Sirui Wang, Chao Wu + 2 more2026-03-06💻 cs

Multi-Loss Learning for Speech Emotion Recognition with Energy-Adaptive Mixup and Frame-Level Attention

Dit artikel presenteert een multi-loss leerframework voor spraakemotierecognitie dat energie-adaptieve mixup en frame-level aandacht integreert om de prestaties op vier standaarddatasets te verbeteren door middel van geavanceerde augmentatie en verliesfuncties.

Cong Wang, Yizhong Geng, Yuhua Wen + 7 more2026-03-06💻 cs

MultiAPI Spoof: A Multi-API Dataset and Local-Attention Network for Speech Anti-spoofing Detection

Dit artikel introduceert de MultiAPI Spoof-dataset en het Nes2Net-LA-netwerk om de kloof tussen bestaande benchmarks en real-world scenario's met diverse commerciële API's te overbruggen, waardoor robuustere detectie en bronherkenning van nep-spraak mogelijk wordt.

Xueping Zhang, Zhenshan Zhang, Yechen Wang + 3 more2026-03-06💻 cs

RA-QA: A Benchmarking System for Respiratory Audio Question Answering Under Real-World Heterogeneity

Deze paper introduceert RA-QA, een nieuw benchmark-systeem met 9 miljoen vraag-antwoordparen en een gestandaardiseerde evaluatieprotocol om de robuustheid van multimodale AI-modellen voor respiratoire audio-diagnose te testen onder realistische, heterogene omstandigheden.

Gaia A. Bertolino, Yuwei Zhang, Tong Xia + 2 more2026-03-06💻 cs

Fine-grained Soundscape Control for Augmented Hearing

Aurchestra is het eerste systeem dat op beperkte hearables real-time fijnmazige controle biedt over individuele geluidsklassen in een omgeving, waardoor gebruikers hun geluidswaarneming kunnen aanpassen alsof ze een audio-engineer zijn.

Seunghyun Oh, Malek Itani, Aseem Gauri + 1 more2026-03-06💻 cs

VoxKnesset: A Large-Scale Longitudinal Hebrew Speech Dataset for Aging Speaker Modeling

Dit artikel introduceert VoxKnesset, een open-access dataset van ongeveer 2.300 uur Hebreeuwse parlementaire spraak over een periode van 16 jaar, die wordt gebruikt om de uitdagingen van veroudering in stemherkenning en -verificatie te onderzoeken en de noodzaak van longitudinale modellen te onderstrepen.

Yanir Marmor, Arad Zulti, David Krongauz + 4 more2026-03-06💻 cs

Temporal Pooling Strategies for Training-Free Anomalous Sound Detection with Self-Supervised Audio Embeddings

Deze paper introduceert en valideert een nieuwe hybride poolingstrategie die relatieve afwijkingen benadrukt, waardoor training-vrije detectie van abnormale geluiden met zelf-superviserende audio-embeddings aanzienlijk verbetert en de state-of-the-art prestaties op meerdere benchmarks, inclusief DCASE2025, bereikt.

Kevin Wilkinghoff, Sarthak Yadav, Zheng-Hua Tan2026-03-06💻 cs

When Denoising Hinders: Revisiting Zero-Shot ASR with SAM-Audio and Whisper

Dit onderzoek toont aan dat het toepassen van het SAM-Audio-ruisfilter als voorbewerkingsstap voor zero-shot spraakherkenning met Whisper de prestaties systematisch verslechtert, ondanks een verbeterde akoestische kwaliteit, wat aantoont dat perceptueel schoner geluid niet noodzakelijkerwijs leidt tot betere machineherkenning.

Akif Islam, Raufun Nahar, Md. Ekramul Hamid2026-03-06💻 cs

WhisperAlign: Word-Boundary-Aware ASR and WhisperX-Anchored Pyannote Diarization for Long-Form Bengali Speech

Dit artikel beschrijft een oplossing voor de DL Sprint 4.0 die door middel van woordgrens-bewuste ASR met WhisperX en op het Bengaalse corpus gefinetuned Pyannote-diariaisatie, de nauwkeurigheid van transcriptie en sprekeridentificatie in lange, meerspreker-Bengaalse opnames aanzienlijk verbetert.

Aurchi Chowdhury, Rubaiyat -E-Zaman, Sk. Ashrafuzzaman Nafees2026-03-06💻 cs

Focus Then Listen: Exploring Plug-and-Play Audio Enhancer for Noise-Robust Large Audio Language Models

De auteurs presenteren Focus-Then-Listen (FTL), een plug-and-play audioversterker die de robuustheid van grote audiolanguage-modellen in ruige omstandigheden verbetert door spraak en geluid te scheiden en modality-aware fusie toe te passen zonder dat er fijnafstemming op de modellen nodig is.

Han Yin, Yang Xiao, Younghoo Kwon + 2 more2026-03-06💻 cs

The First Environmental Sound Deepfake Detection Challenge: Benchmarking Robustness, Evaluation, and Insights

Dit artikel presenteert de resultaten en inzichten van de eerste Environmental Sound Deepfake Detection Challenge, waarbij 97 teams 1.748 inzendingen leverden om de robuustheid, evaluatie en toekomstige onderzoeksrichtingen op het onderbelichte gebied van het detecteren van nep-milieugeluiden te benchmarken.

Han Yin, Yang Xiao, Rohan Kumar Das + 2 more2026-03-06💻 cs

← Vorige Volgende →