MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

Dit paper introduceert MUGEN, een benchmark die de beperkingen van grote audio-taalmodellen bij het verwerken van meerdere simultane audio-invoeren blootlegt en aantoont dat trainingsvrije strategieën zoals Audio-Permutational Self-Consistency de prestaties aanzienlijk verbeteren.

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi LeeWed, 11 Ma🤖 cs.AI

EmoSURA: Towards Accurate Evaluation of Detailed and Long-Context Emotional Speech Captions

In dit paper wordt EmoSURA voorgesteld, een nieuw evaluatiekader dat complexe emotionele spraakbeschrijvingen opdeelt in atomaire eenheden die direct met het audiosignaal worden geverifieerd, waardoor het een betrouwbaardere maatstaf biedt dan traditionele methoden voor langere en gedetailleerde captions.

Xin Jing, Andreas Triantafyllopoulos, Jiadong Wang, Shahin Amiriparian, Jun Luo, Björn SchullerWed, 11 Ma💻 cs

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Dit paper introduceert Task 5 van de DCASE 2025 Challenge, een meerdimensionale benchmark voor audio-vraag-antwoordtaken die de redeneervermogens van audio-taalmodellen in diverse akoestische domeinen evalueert.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

Dit paper introduceert BemaGANv2, een geavanceerde GAN-gebaseerde vocoder voor hoogwaardige en langdurige audio-generatie die gebruikmaakt van innovatieve architecturale wijzigingen en een systematische evaluatie van discriminatorscombinaties om temporale coherentie en harmonische structuur te verbeteren.

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul KwonTue, 10 Ma🤖 cs.LG

SUBARU: A Practical Approach to Power Saving in Hearables Using SUB-Nyquist Audio Resolution Upsampling

Dit paper introduceert SUBARU, een energiezuinige aanpak voor hearables die door het bewust toepassen van sub-Nyquist sampling en lage bit-resolutie in combinatie met een breedband-reconstructiemethode, de stroomverbruik met een factor 3,31 verlaagt terwijl het spraakverbetering in realistische omstandigheden behoudt.

Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Benjamin Baja-Ricketts, David C Vergano, Anomadarshi BaruaTue, 10 Ma💻 cs

LibriTTS-VI: A Public Corpus and Novel Methods for Efficient Voice Impression Control

Dit paper introduceert LibriTTS-VI, het eerste publieke corpus voor numerieke stemindrukcontrole, en stelt nieuwe methoden voor om het probleem van 'impression leakage' op te lossen door het ontkoppelen van sprekeridentiteit en stemindruk, wat leidt tot een aanzienlijke verbetering in de controleerbaarheid van de gegenereerde spraak.

Junki Ohmura, Yuki Ito, Emiru Tsunoo, Toshiyuki Sekiya, Toshiyuki KumakuraTue, 10 Ma💻 cs

Adaptive Discovery of Interpretable Audio Attributes with Multimodal LLMs for Low-Resource Classification

Dit paper introduceert een methode die Multimodal Large Language Models (MLLMs) gebruikt om binnen het AdaFlock-framework snel interpreteerbare audio-attributes te ontdekken voor low-resource classificatie, wat resulteert in een efficiënter en nauwkeuriger ensemble-classificatiesysteem dan directe MLLM-predicties of menselijke benaderingen.

Kosuke Yoshimura, Hisashi KashimaTue, 10 Ma🤖 cs.LG

Seeing the Context: Rich Visual Context-Aware Speech Recognition via Multimodal Reasoning

Dit paper introduceert VASR, een nieuw model voor contextbewuste spraakherkenning dat gebruikmaakt van Audio-Visual Chain-of-Thought om rijke visuele context te redeneren en zo de prestaties te verbeteren door het probleem van eenzijdige modale dominantie aan te pakken.

Wenjie Tian, Mingchen Shao, Bingshen Mu, Xuelong Geng, Chengyou Wang, Yujie Liao, Zhixian Zhao, Ziyu Zhang, Jingbin Hu, Mengqi Wei, Lei XieTue, 10 Ma💻 cs