MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

Dit paper introduceert MUGEN, een benchmark die de beperkingen van grote audio-taalmodellen bij het verwerken van meerdere simultane audio-invoeren blootlegt en aantoont dat trainingsvrije strategieën zoals Audio-Permutational Self-Consistency de prestaties aanzienlijk verbeteren.

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi LeeWed, 11 Ma🤖 cs.AI

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Dit paper introduceert Task 5 van de DCASE 2025 Challenge, een meerdimensionale benchmark voor audio-vraag-antwoordtaken die de redeneervermogens van audio-taalmodellen in diverse akoestische domeinen evalueert.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

Dit paper introduceert BemaGANv2, een geavanceerde GAN-gebaseerde vocoder voor hoogwaardige en langdurige audio-generatie die gebruikmaakt van innovatieve architecturale wijzigingen en een systematische evaluatie van discriminatorscombinaties om temporale coherentie en harmonische structuur te verbeteren.

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul KwonTue, 10 Ma🤖 cs.LG

SUBARU: A Practical Approach to Power Saving in Hearables Using SUB-Nyquist Audio Resolution Upsampling

Dit paper introduceert SUBARU, een energiezuinige aanpak voor hearables die door het bewust toepassen van sub-Nyquist sampling en lage bit-resolutie in combinatie met een breedband-reconstructiemethode, de stroomverbruik met een factor 3,31 verlaagt terwijl het spraakverbetering in realistische omstandigheden behoudt.

Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Benjamin Baja-Ricketts, David C Vergano, Anomadarshi BaruaTue, 10 Ma💻 cs

LibriTTS-VI: A Public Corpus and Novel Methods for Efficient Voice Impression Control

Dit paper introduceert LibriTTS-VI, het eerste publieke corpus voor numerieke stemindrukcontrole, en stelt nieuwe methoden voor om het probleem van 'impression leakage' op te lossen door het ontkoppelen van sprekeridentiteit en stemindruk, wat leidt tot een aanzienlijke verbetering in de controleerbaarheid van de gegenereerde spraak.

Junki Ohmura, Yuki Ito, Emiru Tsunoo, Toshiyuki Sekiya, Toshiyuki KumakuraTue, 10 Ma💻 cs