Robust Audio-Visual Target Speaker Extraction with Emotion-Aware Multiple Enrollment Fusion

Questo articolo propone un metodo robusto per l'estrazione del parlante target audio-visivo che, sfruttando la fusione di più registrazioni e un addestramento con alti tassi di dati mancanti, mantiene prestazioni elevate anche in presenza di interruzioni dei segnali visivi o uditivi tipici degli scenari reali.

Zhan Jin, Bang Zeng, Peijun Yang, Jiarong Du, Wei Ju, Yao Tian, Juan Liu, Ming LiThu, 12 Ma⚡ eess

Trade-offs between structural richness and communication efficiency in music network representations

Questo studio dimostra che la scelta delle caratteristiche per rappresentare la musica come rete di transizioni crea un compromesso fondamentale tra la ricchezza strutturale e l'efficienza comunicativa, influenzando direttamente la distribuzione dell'incertezza e la plausibilità psicologica delle aspettative uditive.

Lluc Bono Rosselló, Robert Jankowski, Hugues Bersini, Marián Boguñá, M. Ángeles SerranoThu, 12 Ma🧬 q-bio

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

Il paper propone HyWA, un metodo che utilizza una rete iperperazionale per generare pesi personalizzati in un modello VAD standard, migliorando le prestazioni di rilevamento della voce del parlante target e semplificando il deployment rispetto alle tecniche di condizionamento esistenti.

Mahsa Ghazvini Nejad, Hamed Jafarzadeh Asl, Amin Edraki, Mohammadreza Sadeghi, Masoud Asgharian, Yuanhao Yu, Vahid Partovi NiaThu, 12 Ma⚡ eess

Calibration-Reasoning Framework for Descriptive Speech Quality Assessment

Il documento presenta un nuovo framework di post-addestramento che combina calibrazione e apprendimento per rinforzo (GRPO) per adattare i modelli linguistici audio alla valutazione della qualità del parlato attraverso dimensioni percettive esplicative, raggiungendo risultati all'avanguardia nel benchmark QualiSpeech e migliorando significativamente la localizzazione temporale degli artefatti.

Elizaveta Kostenok, Mathieu Salzmann, Milos CernakThu, 12 Ma⚡ eess

Speech Codec Probing from Semantic and Phonetic Perspectives

Questo articolo dimostra che i tokenizzatori vocali attuali catturano prevalentemente informazioni fonetiche piuttosto che semantiche lessicali, evidenziando un disallineamento critico rispetto alla semantica testuale che può compromettere le prestazioni dei modelli linguistici multimodali e suggerendo la necessità di nuovi metodi di tokenizzazione.

Xuan Shi, Chang Zeng, Tiantian Feng, Shih-Heng Wang, Jianbo Ma, Shrikanth NarayananThu, 12 Ma⚡ eess

FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System

Il paper presenta FireRedASR2S, un sistema industriale all-in-one di riconoscimento vocale all'avanguardia che integra moduli SOTA per la trascrizione (con supporto per dialetti cinesi e code-switching), il rilevamento dell'attività vocale, l'identificazione della lingua parlata e la punteggiatura, superando le prestazioni di soluzioni concorrenti su numerosi benchmark.

Kaituo Xu, Yan Jia, Kai Huang, Junjie Chen, Wenpeng Li, Kun Liu, Feng-Long Xie, Xu Tang, Yao HuThu, 12 Ma⚡ eess

MOS-Bias: From Hidden Gender Bias to Gender-Aware Speech Quality Assessment

Questo studio rivela un sistematico bias di genere nel Mean Opinion Score (MOS), dove gli ascoltatori maschi assegnano punteggi più alti rispetto alle femmine, e propone un modello di valutazione della qualità vocale consapevole del genere per correggere tale distorsione e migliorare l'accuratezza predittiva.

Wenze Ren, Yi-Cheng Lin, Wen-Chin Huang, Erica Cooper, Ryandhimas E. Zezario, Hsin-Min Wang, Hung-yi Lee, Yu TsaoThu, 12 Ma⚡ eess

Efficient Emotion and Speaker Adaptation in LLM-Based TTS via Characteristic-Specific Partial Fine-Tuning

Il paper propone CSP-FT, una strategia di parziale fine-tuning specifico per le caratteristiche che, aggiornando solo circa l'8% dei parametri, migliora l'adattamento a emozioni e voci non viste nei modelli TTS basati su LLM, riducendo i tempi di addestramento e mitigando l'oblio catastrofico senza compromettere fedeltà e intelligibilità.

Tianrui Wang, Meng Ge, Cheng Gong, Chunyu Qiang, Haoyu Wang, Zikang Huang, Yu Jiang, Ye Ni, Yuheng Lu, Xiaobao Wang, Engsiong Chng, Xie Chen, Longbiao Wang, Jianwu DangMon, 09 Ma💻 cs

The trajectoRIR Database: Room Acoustic Recordings Along a Trajectory of Moving Microphones

Questo articolo presenta il database trajectoRIR, una raccolta estesa e unica di registrazioni acustiche statiche e dinamiche lungo una traiettoria controllata, ottenuta con diverse configurazioni di microfoni montati su un carrello robotico, destinata a supportare compiti avanzati di elaborazione del segnale audio come la localizzazione delle sorgenti sonore e la ricostruzione del campo acustico.

Stefano Damiano, Kathleen MacWilliam, Valerio Lorenzoni, Thomas Dietzen, Toon van WaterschootMon, 09 Ma⚡ eess

ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction

Il paper introduce ParaS2S, un nuovo framework di apprendimento per rinforzo e un benchmark associato che migliorano significativamente la capacità dei modelli di parlare-parlare di comprendere e rispondere adeguatamente sia al contenuto che agli aspetti paralinguistici (come tono ed emozione) direttamente a livello di forma d'onda, superando i limiti delle attuali soluzioni basate su pipeline o sul solo fine-tuning supervisionato.

Shu-wen Yang, Ming Tu, Andy T. Liu, Xinghua Qu, Hung-yi Lee, Lu Lu, Yuxuan Wang, Yonghui WuMon, 09 Ma⚡ eess

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

Il paper propone un nuovo framework end-to-end per il riconoscimento visivo-uditivo del parlato che, eliminando la necessità di maschere esplicita per la rimozione del rumore, utilizza un modulo di fusione basato su Conformer per migliorare implicitamente le caratteristiche audio tramite quelle video, ottenendo prestazioni superiori rispetto ai metodi esistenti in condizioni rumorose.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei YinMon, 09 Ma🤖 cs.AI

LMU-Based Sequential Learning and Posterior Ensemble Fusion for Cross-Domain Infant Cry Classification

Questo articolo propone un framework acustico compatto che combina un codificatore CNN multi-ramo con un'unità di memoria Legendre (LMU) e una fusione di ensemble calibrata per migliorare la classificazione cross-dominio dei pianti infantili, affrontando le sfide legate alla non stazionarietà dei segnali, alla scarsità di annotazioni e ai forti spostamenti di dominio.

Niloofar Jazaeri, Hilmi R. Dajani, Marco Janeczek, Martin BouchardMon, 09 Ma🤖 cs.LG

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

Il paper presenta Omni-C, un singolo encoder denso basato su Transformer che comprime modalità eterogenee (immagini, audio e testo) in rappresentazioni condivise tramite pre-addestramento contrastivo, eliminando la necessità di architetture Mixture-of-Experts e riducendo significativamente l'uso di memoria rispetto ai modelli multimodali tradizionali.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de GusmãoMon, 09 Ma🤖 cs.AI

Activation Steering for Accent Adaptation in Speech Foundation Models

Questo studio propone un metodo di "steering" dei parametri-free per l'adattamento all'accento nei modelli fonamentali del parlato, identificando che le informazioni relative all'accento sono concentrate in un ristretto intervallo di strati intermedi e riducendo l'errore di riconoscimento lessicale modificando direttamente le attivazioni durante l'inferenza.

Jinuo Sun, Yang Xiao, Sung Kyun Chung, Qiuchi Hu, Gongping Huang, Eun-Jung Holden, Ting DangMon, 09 Ma⚡ eess