eess.AS papers | Gist.Science

LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio

Dit paper introduceert LongAudio-RAG, een hybride raamwerk dat vraag-antwoordsystemen voor lange audio-opnames verbetert door Large Language Models te koppelen aan gestructureerde, tijdstempelgebonden geluidsgebeurtenissen in plaats van ruwe audio, wat resulteert in nauwkeurigere antwoorden met minder hallucinaties.

Naveen Vakada, Kartik Hegde, Arvind Krishna Sridhar, Yinyi Guo, Erik VisserTue, 10 Ma🤖 cs.LG

TCG CREST System Description for the DISPLACE-M Challenge

Dit rapport beschrijft het TCG CREST-systeem voor de DISPLACE-M-uitdaging, waarbij een hybride end-to-end neurale diarizatie-architectuur (Diarizen) met geavanceerde clusteringtechnieken een relatieve verbetering van 39% in de diarizatiefout (DER) oplevert ten opzichte van een SpeechBrain-baseline en de zesde plaats behaalt onder de deelnemende teams.

Nikhil Raghav, Md SahidullahTue, 10 Ma🤖 cs.LG

Toward Multimodal Industrial Fault Analysis: A Single-Speed Chain Conveyor Dataset with Audio and Vibration Signals

Deze paper introduceert een multimodaal dataset voor industriële foutanalyse, bestaande uit audio- en trillingssignalen van een kettingtransportband, dat is ontworpen om robuuste systemen voor foutdetectie en -classificatie onder diverse bedrijfsomstandigheden te ondersteunen.

Zhang Chen, Yucong Zhang, Xiaoxiao Miao, Ming LiTue, 10 Ma💻 cs

Towards Objective Gastrointestinal Auscultation: Automated Segmentation and Annotation of Bowel Sound Patterns

Deze studie presenteert een geautomatiseerd systeem voor het segmenteren en classificeren van darmgeluiden met behulp van een draagbare sensor en een AI-model, wat leidt tot objectieve diagnostiek en een aanzienlijke reductie van de tijd voor handmatige annotatie.

Zahra Mansour, Verena Uslar, Dirk Weyhe, Danilo Hollosi, Nils StrodthoffTue, 10 Ma🤖 cs.LG

Scaling Self-Supervised Speech Models Uncovers Deep Linguistic Relationships: Evidence from the Pacific Cluster

Het onderzoek toont aan dat het opschalen van zelftoezichtende spraakmodellen naar 4.017 talen een niet-lineaire verschuiving teweegbrengt die diepgaande genealogische relaties en complexe taalcontacten blootlegt, met name door de vorming van een robuust macro-cluster in de Stille Oceaan dat gedeelde akoestische kenmerken vastlegt.

Minu Kim, Hoirin Kim, David R. MortensenTue, 10 Ma💬 cs.CL

Seeing the Context: Rich Visual Context-Aware Speech Recognition via Multimodal Reasoning

Dit paper introduceert VASR, een nieuw model voor contextbewuste spraakherkenning dat gebruikmaakt van Audio-Visual Chain-of-Thought om rijke visuele context te redeneren en zo de prestaties te verbeteren door het probleem van eenzijdige modale dominantie aan te pakken.

Wenjie Tian, Mingchen Shao, Bingshen Mu, Xuelong Geng, Chengyou Wang, Yujie Liao, Zhixian Zhao, Ziyu Zhang, Jingbin Hu, Mengqi Wei, Lei XieTue, 10 Ma💻 cs

Fast and Flexible Audio Bandwidth Extension via Vocos

Dit paper introduceert een snelle en flexibele bandwidth extension-methode op basis van Vocos die ontbrekende hoge frequenties genereert om audio van 8-48 kHz te verbeteren, met een lichtgewicht refiner voor naadloze samenvoeging en uitzonderlijk hoge doorvoer op zowel GPU als CPU.

Yatharth SharmaTue, 10 Ma🤖 cs.LG

Towards Lightweight Adaptation of Speech Enhancement Models in Real-World Environments

Deze paper introduceert een lichtgewicht raamwerk voor de aanpassing van spraakverbeteringsmodellen in realistische omgevingen, dat door middel van zelftoezicht opgeleerde low-rank adapters minder dan 1% van de parameters bijwerkt om met slechts 20 updates een robuustheid en geluidskwaliteit te bereiken die concurreren met geavanceerdere methoden.

Longbiao Cheng, Shih-Chii LiuTue, 10 Ma🤖 cs.LG

Evaluating Parkinson's Disease Detection in Anonymized Speech: A Performance and Acoustic Analysis

Deze studie toont aan dat privacybehoud bij de detectie van de ziekte van Parkinson via spraak mogelijk is met de kNN-VC-anonimiseringsmethode, die pathologische informatie behoudt terwijl STT-TTS deze door het verwijderen van prosodie te sterk aantast.

Carlos Franzreb, Francisco Teixeira, Ben Luks, Sebastian Möller, Alberto AbadTue, 10 Ma💻 cs

Analysis-Driven Procedural Generation of an Engine Sound Dataset with Embedded Control Annotations

Dit artikel introduceert een analyse-gedreven framework voor de procedurale generatie van een openbaar dataset met 19 uur aan motorgeluiden en nauwkeurige RPM- en koppelannotaties, die de industriële behoefte aan schaalbare, schone trainingsdata voor data-gedreven akoestische modellering en synthese adresseert.

Robin Doerfler, Lonce WyseTue, 10 Ma🤖 cs.LG

SoundWeaver: Semantic Warm-Starting for Text-to-Audio Diffusion Serving

SoundWeaver is een trainingsvrij en modelonafhankelijk serversysteem dat de latentie van tekst-naar-audio diffusiemodellen aanzienlijk verlaagt door het generatieproces warm te starten op basis van semantisch vergelijkbare, in cache opgeslagen audiofragmenten, zonder in te leveren op de perceptuele kwaliteit.

Ayush Barik, Sofia Stoica, Nikhil Sarda, Arnav Kethana, Abhinav Khanduja, Muchen Xu, Fan LaiTue, 10 Ma💻 cs

WhispEar: A Bi-directional Framework for Scaling Whispered Speech Conversion via Pseudo-Parallel Whisper Generation

Dit paper introduceert WhispEar, een bidirectioneel framework dat schaalbare pseudo-parallelle fluisterdata genereert via een N2W-model om de conversie van fluister- naar normaal spraak te verbeteren, ondersteund door het grootste tweetalige corpus tot nu toe.

Zihao Fang, Yingda Shen, Zifan Guan, Tongtong Song, Zhenyi Liu, Zhizheng WuTue, 10 Ma💻 cs

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

FoleyFlow introduceert een gecoördineerde video-naar-audio generatiemethode die via gemaskeerde audio-visuele uitlijning en dynamische conditionele flows zowel semantische als ritmische synchronisatie tussen video en gegenereerde audio verbetert.

Shentong Mo, Yibing SongTue, 10 Ma🤖 cs.LG

DualTurn: Learning Turn-Taking from Dual-Channel Generative Speech Pretraining

DualTurn is een model dat door middel van generatieve pretraining op dubbelkanaals spraak natuurlijke wisselgesprekken leert en zo de onnatuurlijke stilte-tijdouten van traditionele spraakpijplijnen overbrugt door continue anticipatie op wisselpunten en het genereren van agent-acties.

Shangeth RajaaTue, 10 Ma💬 cs.CL

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

Dit artikel introduceert een raamwerk voor grote audio-taalmodellen dat dubbelzinnige spraakemotieherkenning behandelt als een distributief redeneerprobleem door een ambiguiteitsbewust doel en gestructureerde chain-of-thought-supervisie te combineren, wat leidt tot consistente prestatieverbeteringen op benchmarkdatasets.

Xiaofeng Yu, Jiaheng Dong, Jean Honorio, Abhirup Ghosh, Hong Jia, Ting DangTue, 10 Ma💻 cs

Quantifying Cross-Lingual Transfer in Paralinguistic Speech Tasks

Deze studie introduceert de Cross-Lingual Transfer Matrix (CLTM) om systematisch te kwantificeren hoe donor-taaldata de prestaties van paralinguïstische taken, zoals geslachtsidentificatie en sprekerverificatie, beïnvloedt bij cross-linguale overdracht, waarbij blijkt dat deze effecten systematisch en taalspecifiek zijn.

Pol Buitrago, Oriol Pareras, Federico Costa, Javier HernandoTue, 10 Ma💬 cs.CL

Bootstrapping Audiovisual Speech Recognition in Zero-AV-Resource Scenarios with Synthetic Visual Data

Dit paper introduceert een framework voor audiovisuele spraakherkenning in talen zonder bestaande video-corpora door gebruik te maken van synthetische visuele data gegenereerd via lip-syncing, wat resulteert in een model dat presteert op het niveau van de state-of-the-art met aanzienlijk minder trainingsdata.

Pol Buitrago, Pol Gàlvez, Oriol Pareras, Javier HernandoTue, 10 Ma💬 cs.CL

Computational modeling of early language learning from acoustic speech and audiovisual input without linguistic priors

Dit artikel bespreekt hoe zelftoezicht en visueel verankerde computationele modellen, zonder sterke linguïstische aannames, steeds krachtiger worden in het leren van spraak en hoe ze een gedeelde set leerprincipes bieden om vroege taalontwikkeling te verklaren.

Okko RäsänenTue, 10 Ma💬 cs.CL

Benchmarking Language Modeling for Lossless Compression of Full-Fidelity Audio

Dit artikel introduceert Trilobyte, een byte-level tokenisatiemethode die autoregressieve taalmodellen toepasbaar maakt voor verliesvrije compressie van volledige audiokwaliteit (tot 24-bit), hoewel de compressiewinst ten opzichte van bestaande codecs zoals FLAC afneemt naarmate de bitdiepte toeneemt.

Phillip Long, Zachary Novack, Chris DonahueTue, 10 Ma🤖 cs.LG

Are Deep Speech Denoising Models Robust to Adversarial Noise?

Deze studie toont aan dat diepe spraakruisreductiemodellen kwetsbaar zijn voor psychoakoestisch verborgen adversariële ruis die de output onbegrijpelijk maakt zonder dat de ruis zelf waarneembaar is, wat dringende maatregelen vereist voordat deze systemen veilig in kritieke toepassingen kunnen worden ingezet.

Will Schwarzer, Neel Chaudhari, Philip S. Thomas, Andrea Fanelli, Xiaoyu LiuThu, 12 Ma⚡ eess

← Vorige Volgende →