SPAR-K: Scheduled Periodic Alternating Early Exit for Spoken Language Models

Il paper propone SPAR-K, un framework di uscita anticipata modale-aware che accelera l'inferenza dei modelli linguistici parlati intercalati riducendo la profondità di decodifica fino all'11% con un impatto trascurabile sulla qualità percettiva e sull'accuratezza, superando le strategie di uscita anticipata basate sulla confidenza tipiche dei LLM testuali.

Hsiao-Ying Huang, Cheng-Han Chiang, Hung-yi LeeWed, 11 Ma💬 cs.CL

How Contrastive Decoding Enhances Large Audio Language Models?

Questo studio valuta sistematicamente diverse strategie di Decodifica Contrastiva per i Modelli Linguistici Audio di grandi dimensioni, identificando le più efficaci e introducendo una matrice di transizione per spiegare come tali metodi correggano specifici errori di inferenza, fornendo così linee guida per l'adattamento in base ai profili di errore dei modelli.

Tzu-Quan Lin, Wei-Ping Huang, Yi-Cheng Lin, Hung-yi LeeWed, 11 Ma💬 cs.CL

A Fast Solver for Interpolating Stochastic Differential Equation Diffusion Models for Speech Restoration

Questo lavoro propone un formalismo di equazioni differenziali stocastiche interpolanti (iSDE) e un relativo solver rapido che, riducendo a sole 10 valutazioni della rete neurale il processo di campionamento inverso, abilita un'efficiente risoluzione dei modelli di diffusione per il ripristino della voce, superando i limiti degli attuali metodi di campionamento veloce.

Bunlong Lay, Timo GerkmannWed, 11 Ma⚡ eess

Finetuning a Text-to-Audio Model for Room Impulse Response Generation

Questo articolo presenta un nuovo approccio per la generazione di risposte all'impulso della stanza (RIR) mediante il fine-tuning di un modello pre-addestrato per la sintesi audio da testo, superando la scarsità di dati tramite l'uso di modelli visione-linguaggio per l'etichettatura e strategie di apprendimento in contesto per la generazione di RIR plausibili utili all'augmentazione dei dati vocali.

Kirak Kim, Sungyoung KimWed, 11 Ma⚡ eess

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

Il paper introduce MUGEN, un benchmark completo che rivela le carenze dei modelli audio-linguistici nella comprensione di più audio simultanei e dimostra che strategie di inferenza senza addestramento, come la permutazione degli input e il ragionamento a catena, possono migliorare significativamente le prestazioni.

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi LeeWed, 11 Ma🤖 cs.AI

Distributed Multichannel Wiener Filtering for Wireless Acoustic Sensor Networks

Questo articolo propone l'algoritmo dMWF, una soluzione non iterativa e ottimale per il filtraggio di Wiener multicanale distribuito nelle reti di sensori acustici wireless, che supera i limiti di convergenza e di assunzione delle fonti esistenti consentendo ai nodi di collaborare per stimare segnali vocali specifici anche quando osservano insiemi di sorgenti differenti.

Paul Didier, Toon van Waterschoot, Simon Doclo, Jörg Bitzer, Pourya Behmandpoor, Henri Gode, Marc MoonenWed, 11 Ma⚡ eess

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Questo documento presenta il Task 5 della sfida DCASE 2025, un benchmark per la risposta alle domande audio (AQA) che valuta la capacità di ragionamento acustico dei modelli linguistico-audio su tre sottogruppi di domini diversi, fornendo dataset, protocolli di valutazione e risultati preliminari di sistemi baselines.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

Il documento presenta BemaGANv2, un vocoder basato su GAN avanzato per la generazione audio a lungo termine che integra innovazioni architetturali come il modulo AMP e una valutazione sistematica di diverse strategie di combinazione dei discriminatori, tra cui il nuovo Multi-Envelope Discriminator, per migliorare coerenza temporale e fedeltà del suono.

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul KwonTue, 10 Ma🤖 cs.LG

SUBARU: A Practical Approach to Power Saving in Hearables Using SUB-Nyquist Audio Resolution Upsampling

Il paper presenta SUBARU, un approccio pratico che riduce il consumo energetico degli auricolari intelligenti del 3,31 volte sfruttando la sottocampionatura e la bassa risoluzione dei convertitori analogico-digitali, pur garantendo un'efficace enhancement del parlato in tempo reale tramite un innovativo metodo di upsampling.

Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Benjamin Baja-Ricketts, David C Vergano, Anomadarshi BaruaTue, 10 Ma💻 cs