eess.AS papers | Gist.Science

Acoustic and Semantic Modeling of Emotion in Spoken Language

Deze thesis onderzoekt hoe akoestische en semantische informatie gezamenlijk kunnen worden gemodelleerd om emotionele expressie in gesproken taal beter te begrijpen en te synthetiseren, door middel van emotion-bewust voortrainen, hiërarchische architecturen voor conversatie en een tekstloze framework voor emotionele stijltransfer.

Soumya DuttaWed, 11 Ma⚡ eess

SPAR-K: Scheduled Periodic Alternating Early Exit for Spoken Language Models

Het paper introduceert SPAR-K, een modaal bewust framework voor vroegtijdig uitstappen dat de inferentie van gesproken taalmodellen versnelt door een gescheduleerd, periodiek wisselend uitstapstrategie te gebruiken die de perceptuele kwaliteit behoudt en de rekenkosten verlaagt zonder aanzienlijke nauwkeurigheidsverlies.

Hsiao-Ying Huang, Cheng-Han Chiang, Hung-yi LeeWed, 11 Ma💬 cs.CL

How Contrastive Decoding Enhances Large Audio Language Models?

Deze studie toont aan dat Contrastive Decoding de prestaties van grote audio-taalmodellen verbetert door specifieke inferentiefouten te corrigeren, waarbij de effectiviteit echter afhangt van het model en de gekozen strategie, zoals in kaart gebracht door een nieuw Transition Matrix-framework.

Tzu-Quan Lin, Wei-Ping Huang, Yi-Cheng Lin, Hung-yi LeeWed, 11 Ma💬 cs.CL

StuPASE: Towards Low-Hallucination Studio-Quality Generative Speech Enhancement

Dit paper introduceert StuPASE, een verbeterde versie van PASE die door middel van finetuning met droge targets en een flow-matching module studio-kwaliteit spraakverbetering bereikt met een minimale hallucinatie.

Xiaobin Rong, Jun Gao, Zheng Wang, Mansur Yesilbursa, Kamil Wojcicki, Jing LuWed, 11 Ma⚡ eess

Physics-Informed Neural Engine Sound Modeling with Differentiable Pulse-Train Synthesis

Dit paper introduceert de Pulse-Train-Resonator (PTR), een differentieerbaar synthesemodel dat motorgeluiden nauwkeuriger nabootst door fysisch geïnformeerde pulsreeksen en resonatoren te gebruiken in plaats van traditionele harmonische benaderingen, wat resulteert in een significante verbetering in reconstructiekwaliteit en interpreteerbare parameters.

Robin Doerfler, Lonce WyseWed, 11 Ma🤖 cs.AI

End-to-End Direction-Aware Keyword Spotting with Spatial Priors in Noisy Environments

Deze paper introduceert een end-to-end multi-kanaals framework voor trefwoorddetectie dat ruimtelijke aanwijzingen en directionele priors combineert om de robuustheid in lawaaierige omgevingen aanzienlijk te verbeteren.

Rui Wang, Zhifei Zhang, Yu Gao, Xiaofeng Mou, Yi XuWed, 11 Ma⚡ eess

A Fast Solver for Interpolating Stochastic Differential Equation Diffusion Models for Speech Restoration

Deze paper introduceert een snelle solver voor interpolerende stochastische differentiaalvergelijkingen (iSDE's) die het aantal benodigde neurale netwerkberekeningen voor spraakherstel met diffusion-modellen zoals SGMSE+ reduceert tot slechts tien evaluaties.

Bunlong Lay, Timo GerkmannWed, 11 Ma⚡ eess

Speech-Omni-Lite: Portable Speech Interfaces for Vision-Language Models

Dit paper introduceert Speech-Omni-Lite, een kostenefficiënt framework dat bestaande visueel-taalmodellen uitbreidt met spraakvaardigheden via lichte, trainbare modules en een innovatieve data-strategie, waardoor uitstekende prestaties worden bereikt met slechts duizenden uren trainingsdata in plaats van miljoenen.

Dehua Tao, Xuan Luo, Daxin Tan, Kai Chen, Lanqing Hong, Jing Li, Ruifeng Xu, Xiao ChenWed, 11 Ma⚡ eess

Finetuning a Text-to-Audio Model for Room Impulse Response Generation

Dit paper introduceert een nieuwe methode voor het genereren van kamerimpulsresponsen door een vooraf getraind tekst-naar-audio-model te finetunen met behulp van door vision-language modellen gegenereerde labels, wat resulteert in realistische akoestische simulaties die effectief zijn voor spraakdata-augmentatie.

Kirak Kim, Sungyoung KimWed, 11 Ma⚡ eess

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

Dit paper introduceert MUGEN, een benchmark die de beperkingen van grote audio-taalmodellen bij het verwerken van meerdere simultane audio-invoeren blootlegt en aantoont dat trainingsvrije strategieën zoals Audio-Permutational Self-Consistency de prestaties aanzienlijk verbeteren.

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi LeeWed, 11 Ma🤖 cs.AI

A Semi-spontaneous Dutch Speech Dataset for Speech Enhancement and Speech Recognition

Dit paper introduceert DRES, een semi-spontane Nederlandse spraakdataset van 1,5 uur opgenomen in lawaaierige openbare ruimtes, die dient als testset voor ASR en SE-modellen en aantoont dat moderne single-channel spraakverbetering de herkenning niet altijd verbetert in realistische omstandigheden.

Dimme de Groot, Yuanyuan Zhang, Jorge Martinez, Odette ScharenborgWed, 11 Ma⚡ eess

Distributed Multichannel Wiener Filtering for Wireless Acoustic Sensor Networks

Deze paper introduceert de niet-iteratieve, optimale dMWF-algoritme voor draadloze akoestische sensornetwerken, dat de prestaties van een centraal systeem bereikt met minder bandbreedte en zonder de beperkingen van eerdere methoden zoals DANSE.

Paul Didier, Toon van Waterschoot, Simon Doclo, Jörg Bitzer, Pourya Behmandpoor, Henri Gode, Marc MoonenWed, 11 Ma⚡ eess

Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Fold Paralysis

Dit paper introduceert MLVAS, een multimodaal systeem dat audio- en videostroboscopische data combineert om automatische segmentatie, kenmerkextractie en objectieve visualisatie te bieden voor de ondersteunde diagnose van stembandverlamming.

Yucong Zhang, Xin Zou, Jinshan Yang, Wenjun Chen, Juan Liu, Faya Liang, Ming LiTue, 10 Ma💻 cs

ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance

ExpGest is een innovatief diffusion-model dat door het synchroniseren van tekst- en audio-informatie expressieve, natuurlijke en emotioneel gecontroleerde full-body gebaren genereert, waarmee het de beperkingen van bestaande methoden die zich uitsluitend op audio en het bovenlichaam richten, overwint.

Yongkang Cheng, Mingjiang Liang, Shaoli Huang, Gaoge Han, Jifeng Ning, Wei LiuTue, 10 Ma💻 cs

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Dit paper introduceert Task 5 van de DCASE 2025 Challenge, een meerdimensionale benchmark voor audio-vraag-antwoordtaken die de redeneervermogens van audio-taalmodellen in diverse akoestische domeinen evalueert.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

Dit paper introduceert BemaGANv2, een geavanceerde GAN-gebaseerde vocoder voor hoogwaardige en langdurige audio-generatie die gebruikmaakt van innovatieve architecturale wijzigingen en een systematische evaluatie van discriminatorscombinaties om temporale coherentie en harmonische structuur te verbeteren.

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul KwonTue, 10 Ma🤖 cs.LG

WaLi: Can Pressure Sensors in HVAC Systems Capture Human Speech?

Dit paper introduceert WaLi, een aanval die intelligibele spraak reconstrueert uit ruisende druksensor-data van HVAC-systemen door gebruik te maken van een complex-waardige conformer en een Complex Global Attention Block, waarmee een tot nu toe onbekend privacyrisico voor deze sensoren wordt blootgelegd.

Tarikul Islam Tamiti, Biraj Joshi, Rida Hasan, Anomadarshi BaruaTue, 10 Ma💻 cs

SUBARU: A Practical Approach to Power Saving in Hearables Using SUB-Nyquist Audio Resolution Upsampling

Dit paper introduceert SUBARU, een energiezuinige aanpak voor hearables die door het bewust toepassen van sub-Nyquist sampling en lage bit-resolutie in combinatie met een breedband-reconstructiemethode, de stroomverbruik met een factor 3,31 verlaagt terwijl het spraakverbetering in realistische omstandigheden behoudt.

Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Benjamin Baja-Ricketts, David C Vergano, Anomadarshi BaruaTue, 10 Ma💻 cs

ECHO: Frequency-aware Hierarchical Encoding for Variable-length Signals

Dit paper introduceert ECHO, een nieuw foundation model dat geavanceerde band-split architectuur en frequentie-positional embeddings combineert om variabele lengte signaalanalyses op willekeurige samplefrequenties mogelijk te maken, wat leidt tot state-of-the-art prestaties in machine-anomaliedetectie en foutclassificatie.

Yucong Zhang, Juan Liu, Ming LiTue, 10 Ma🤖 cs.LG

LibriTTS-VI: A Public Corpus and Novel Methods for Efficient Voice Impression Control

Dit paper introduceert LibriTTS-VI, het eerste publieke corpus voor numerieke stemindrukcontrole, en stelt nieuwe methoden voor om het probleem van 'impression leakage' op te lossen door het ontkoppelen van sprekeridentiteit en stemindruk, wat leidt tot een aanzienlijke verbetering in de controleerbaarheid van de gegenereerde spraak.

Junki Ohmura, Yuki Ito, Emiru Tsunoo, Toshiyuki Sekiya, Toshiyuki KumakuraTue, 10 Ma💻 cs

← Vorige Volgende →