eess.AS articoli | Gist.Science

Acoustic and Semantic Modeling of Emotion in Spoken Language

Questa tesi propone un approccio olistico per la modellazione delle emozioni nel linguaggio parlato, combinando l'apprendimento di rappresentazioni acustiche e semantiche, architetture gerarchiche per il riconoscimento emotivo in contesti conversazionali e un framework senza testo per il trasferimento controllato dello stile emotivo che preserva l'identità del parlante.

Soumya DuttaWed, 11 Ma⚡ eess

SPAR-K: Scheduled Periodic Alternating Early Exit for Spoken Language Models

Il paper propone SPAR-K, un framework di uscita anticipata modale-aware che accelera l'inferenza dei modelli linguistici parlati intercalati riducendo la profondità di decodifica fino all'11% con un impatto trascurabile sulla qualità percettiva e sull'accuratezza, superando le strategie di uscita anticipata basate sulla confidenza tipiche dei LLM testuali.

Hsiao-Ying Huang, Cheng-Han Chiang, Hung-yi LeeWed, 11 Ma💬 cs.CL

How Contrastive Decoding Enhances Large Audio Language Models?

Questo studio valuta sistematicamente diverse strategie di Decodifica Contrastiva per i Modelli Linguistici Audio di grandi dimensioni, identificando le più efficaci e introducendo una matrice di transizione per spiegare come tali metodi correggano specifici errori di inferenza, fornendo così linee guida per l'adattamento in base ai profili di errore dei modelli.

Tzu-Quan Lin, Wei-Ping Huang, Yi-Cheng Lin, Hung-yi LeeWed, 11 Ma💬 cs.CL

StuPASE: Towards Low-Hallucination Studio-Quality Generative Speech Enhancement

Il paper presenta StuPASE, un nuovo modello di potenziamento vocale basato su PASE che combina un'addestramento mirato alla rimozione della riverberazione e un modulo di generazione basato sul flow-matching per ottenere una qualità vocale da studio con un minimo di allucinazioni, superando i metodi attuali.

Xiaobin Rong, Jun Gao, Zheng Wang, Mansur Yesilbursa, Kamil Wojcicki, Jing LuWed, 11 Ma⚡ eess

Physics-Informed Neural Engine Sound Modeling with Differentiable Pulse-Train Synthesis

Il modello Pulse-Train-Resonator (PTR) proposto supera i metodi di sintesi neurali tradizionali modellando direttamente la struttura temporale degli impulsi di scarico e le risonanze fisiche, ottenendo una ricostruzione armonica superiore e parametri interpretabili per il suono dei motori.

Robin Doerfler, Lonce WyseWed, 11 Ma🤖 cs.AI

End-to-End Direction-Aware Keyword Spotting with Spatial Priors in Noisy Environments

Questo articolo presenta un framework end-to-end per il riconoscimento di parole chiave in ambienti rumorosi che, sfruttando segnali multicanale, codifica spaziale e prior direzionali, supera i limiti dei sistemi convenzionali a cascata ottenendo una maggiore robustezza e prestazioni ottimali.

Rui Wang, Zhifei Zhang, Yu Gao, Xiaofeng Mou, Yi XuWed, 11 Ma⚡ eess

A Fast Solver for Interpolating Stochastic Differential Equation Diffusion Models for Speech Restoration

Questo lavoro propone un formalismo di equazioni differenziali stocastiche interpolanti (iSDE) e un relativo solver rapido che, riducendo a sole 10 valutazioni della rete neurale il processo di campionamento inverso, abilita un'efficiente risoluzione dei modelli di diffusione per il ripristino della voce, superando i limiti degli attuali metodi di campionamento veloce.

Bunlong Lay, Timo GerkmannWed, 11 Ma⚡ eess

Speech-Omni-Lite: Portable Speech Interfaces for Vision-Language Models

Il paper introduce Speech-Omni-Lite, un framework efficiente che estende i modelli visione-linguaggio pre-addestrati con capacità di comprensione e generazione vocale tramite moduli leggeri e un piano di addestramento su dati sintetici, ottenendo prestazioni paragonabili a modelli omni-scale molto più costosi.

Dehua Tao, Xuan Luo, Daxin Tan, Kai Chen, Lanqing Hong, Jing Li, Ruifeng Xu, Xiao ChenWed, 11 Ma⚡ eess

Finetuning a Text-to-Audio Model for Room Impulse Response Generation

Questo articolo presenta un nuovo approccio per la generazione di risposte all'impulso della stanza (RIR) mediante il fine-tuning di un modello pre-addestrato per la sintesi audio da testo, superando la scarsità di dati tramite l'uso di modelli visione-linguaggio per l'etichettatura e strategie di apprendimento in contesto per la generazione di RIR plausibili utili all'augmentazione dei dati vocali.

Kirak Kim, Sungyoung KimWed, 11 Ma⚡ eess

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

Il paper introduce MUGEN, un benchmark completo che rivela le carenze dei modelli audio-linguistici nella comprensione di più audio simultanei e dimostra che strategie di inferenza senza addestramento, come la permutazione degli input e il ragionamento a catena, possono migliorare significativamente le prestazioni.

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi LeeWed, 11 Ma🤖 cs.AI

A Semi-spontaneous Dutch Speech Dataset for Speech Enhancement and Speech Recognition

Il paper presenta DRES, un nuovo dataset di 1,5 ore di parlato semi-spontaneo olandese registrato in ambienti rumorosi, utilizzato per valutare modelli di riconoscimento e enhancement vocale, rivelando che l'applicazione di algoritmi di enhancement a singolo canale non migliora le prestazioni ASR in scenari realistici.

Dimme de Groot, Yuanyuan Zhang, Jorge Martinez, Odette ScharenborgWed, 11 Ma⚡ eess

Distributed Multichannel Wiener Filtering for Wireless Acoustic Sensor Networks

Questo articolo propone l'algoritmo dMWF, una soluzione non iterativa e ottimale per il filtraggio di Wiener multicanale distribuito nelle reti di sensori acustici wireless, che supera i limiti di convergenza e di assunzione delle fonti esistenti consentendo ai nodi di collaborare per stimare segnali vocali specifici anche quando osservano insiemi di sorgenti differenti.

Paul Didier, Toon van Waterschoot, Simon Doclo, Jörg Bitzer, Pourya Behmandpoor, Henri Gode, Marc MoonenWed, 11 Ma⚡ eess

Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Fold Paralysis

Questo articolo presenta il MLVAS, un sistema multimodale che combina analisi video e audio per estrarre segmenti clinici rilevanti e generare metriche oggettive al fine di assistere nella diagnosi della paralisi delle corde vocali.

Yucong Zhang, Xin Zou, Jinshan Yang, Wenjun Chen, Juan Liu, Faya Liang, Ming LiTue, 10 Ma💻 cs

ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance

Il paper presenta ExpGest, un nuovo framework basato su modelli di diffusione che genera gesti espressivi a corpo intero sincronizzando informazioni audio e testuali, superando i limiti dei metodi esistenti grazie a un classificatore di emozioni del rumore e a una migliore generalizzazione semantica.

Yongkang Cheng, Mingjiang Liang, Shaoli Huang, Gaoge Han, Jifeng Ning, Wei LiuTue, 10 Ma💻 cs

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Questo documento presenta il Task 5 della sfida DCASE 2025, un benchmark per la risposta alle domande audio (AQA) che valuta la capacità di ragionamento acustico dei modelli linguistico-audio su tre sottogruppi di domini diversi, fornendo dataset, protocolli di valutazione e risultati preliminari di sistemi baselines.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

Il documento presenta BemaGANv2, un vocoder basato su GAN avanzato per la generazione audio a lungo termine che integra innovazioni architetturali come il modulo AMP e una valutazione sistematica di diverse strategie di combinazione dei discriminatori, tra cui il nuovo Multi-Envelope Discriminator, per migliorare coerenza temporale e fedeltà del suono.

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul KwonTue, 10 Ma🤖 cs.LG

WaLi: Can Pressure Sensors in HVAC Systems Capture Human Speech?

Il paper presenta WaLi, un attacco che dimostra come i sensori di pressione negli impianti HVAC possano essere sfruttati per ricostruire e intercettare discorsi umani intelligibili, superando le limitazioni dei lavori precedenti e proponendo al contempo soluzioni difensive.

Tarikul Islam Tamiti, Biraj Joshi, Rida Hasan, Anomadarshi BaruaTue, 10 Ma💻 cs

SUBARU: A Practical Approach to Power Saving in Hearables Using SUB-Nyquist Audio Resolution Upsampling

Il paper presenta SUBARU, un approccio pratico che riduce il consumo energetico degli auricolari intelligenti del 3,31 volte sfruttando la sottocampionatura e la bassa risoluzione dei convertitori analogico-digitali, pur garantendo un'efficace enhancement del parlato in tempo reale tramite un innovativo metodo di upsampling.

Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Benjamin Baja-Ricketts, David C Vergano, Anomadarshi BaruaTue, 10 Ma💻 cs

ECHO: Frequency-aware Hierarchical Encoding for Variable-length Signals

Il paper presenta ECHO, un modello fondazionale innovativo che integra un'architettura a bande divise e embedding posizionali frequenziali per elaborare segnali macchina di lunghezza variabile e a diversi tassi di campionamento, ottenendo prestazioni all'avanguardia nell'individuazione di anomalie e nella classificazione dei guasti.

Yucong Zhang, Juan Liu, Ming LiTue, 10 Ma🤖 cs.LG

LibriTTS-VI: A Public Corpus and Novel Methods for Efficient Voice Impression Control

Il paper presenta LibriTTS-VI, il primo corpus pubblico per il controllo numerico delle impressioni vocali, e propone metodi innovativi di addestramento disaccoppiato e privi di riferimento per mitigare la fuoriuscita di impressione e migliorare significativamente la precisione del controllo nella sintesi vocale.

Junki Ohmura, Yuki Ito, Emiru Tsunoo, Toshiyuki Sekiya, Toshiyuki KumakuraTue, 10 Ma💻 cs

← Precedente Successivo →