eess.AS articoli | Gist.Science

Robust Audio-Visual Target Speaker Extraction with Emotion-Aware Multiple Enrollment Fusion

Questo articolo propone un metodo robusto per l'estrazione del parlante target audio-visivo che, sfruttando la fusione di più registrazioni e un addestramento con alti tassi di dati mancanti, mantiene prestazioni elevate anche in presenza di interruzioni dei segnali visivi o uditivi tipici degli scenari reali.

Zhan Jin, Bang Zeng, Peijun Yang, Jiarong Du, Wei Ju, Yao Tian, Juan Liu, Ming LiThu, 12 Ma⚡ eess

Trade-offs between structural richness and communication efficiency in music network representations

Questo studio dimostra che la scelta delle caratteristiche per rappresentare la musica come rete di transizioni crea un compromesso fondamentale tra la ricchezza strutturale e l'efficienza comunicativa, influenzando direttamente la distribuzione dell'incertezza e la plausibilità psicologica delle aspettative uditive.

Lluc Bono Rosselló, Robert Jankowski, Hugues Bersini, Marián Boguñá, M. Ángeles SerranoThu, 12 Ma🧬 q-bio

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

Il paper propone HyWA, un metodo che utilizza una rete iperperazionale per generare pesi personalizzati in un modello VAD standard, migliorando le prestazioni di rilevamento della voce del parlante target e semplificando il deployment rispetto alle tecniche di condizionamento esistenti.

Mahsa Ghazvini Nejad, Hamed Jafarzadeh Asl, Amin Edraki, Mohammadreza Sadeghi, Masoud Asgharian, Yuanhao Yu, Vahid Partovi NiaThu, 12 Ma⚡ eess

Multi-View Based Audio Visual Target Speaker Extraction

Il paper propone MVTF, un nuovo framework che sfrutta l'apprendimento multi-vista durante l'addestramento per migliorare le prestazioni dell'estrazione del parlante target sia in modalità mono-vista che multi-vista, superando i limiti dei metodi esistenti basati esclusivamente su viste frontali.

Peijun Yang, Zhan Jin, Juan Liu, Ming LiThu, 12 Ma⚡ eess

Calibration-Reasoning Framework for Descriptive Speech Quality Assessment

Il documento presenta un nuovo framework di post-addestramento che combina calibrazione e apprendimento per rinforzo (GRPO) per adattare i modelli linguistici audio alla valutazione della qualità del parlato attraverso dimensioni percettive esplicative, raggiungendo risultati all'avanguardia nel benchmark QualiSpeech e migliorando significativamente la localizzazione temporale degli artefatti.

Elizaveta Kostenok, Mathieu Salzmann, Milos CernakThu, 12 Ma⚡ eess

nlm: Real-Time Non-linear Modal Synthesis in Max

Il paper presenta \texttt{nlm}, un set di externals Max open-source implementati in C++ che abilitano la sintesi modale non lineare in tempo reale per corde, membrane e piastre, offrendo un controllo interattivo dei parametri fisici e facilitando l'accesso a questa tecnica espressiva per compositori e sound designer.

Rodrigo Diaz, Rodrigo Constanzo, Mark SandlerThu, 12 Ma⚡ eess

Speech Codec Probing from Semantic and Phonetic Perspectives

Questo articolo dimostra che i tokenizzatori vocali attuali catturano prevalentemente informazioni fonetiche piuttosto che semantiche lessicali, evidenziando un disallineamento critico rispetto alla semantica testuale che può compromettere le prestazioni dei modelli linguistici multimodali e suggerendo la necessità di nuovi metodi di tokenizzazione.

Xuan Shi, Chang Zeng, Tiantian Feng, Shih-Heng Wang, Jianbo Ma, Shrikanth NarayananThu, 12 Ma⚡ eess

FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System

Il paper presenta FireRedASR2S, un sistema industriale all-in-one di riconoscimento vocale all'avanguardia che integra moduli SOTA per la trascrizione (con supporto per dialetti cinesi e code-switching), il rilevamento dell'attività vocale, l'identificazione della lingua parlata e la punteggiatura, superando le prestazioni di soluzioni concorrenti su numerosi benchmark.

Kaituo Xu, Yan Jia, Kai Huang, Junjie Chen, Wenpeng Li, Kun Liu, Feng-Long Xie, Xu Tang, Yao HuThu, 12 Ma⚡ eess

G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition

Il paper presenta G-STAR, un sistema end-to-end che combina un modulo di tracciamento speaker temporale con un Speech-LLM per generare trascrizioni attribuite con timestamp in contesti di parlato multi-parlante e sovrapposto, garantendo coerenza dell'identità a livello di riunione.

Jing Peng, Ziyi Chen, Haoyu Li, Yucheng Wang, Duo Ma, Mengtian Li, Yunfan Du, Dezhu Xu, Kai Yu, Shuai WangThu, 12 Ma⚡ eess

Geo-ATBench: A Benchmark for Geospatial Audio Tagging with Geospatial Semantic Context

Il paper introduce Geo-ATBench, un benchmark e un framework di fusione audio-geospaziale che dimostra come l'integrazione del contesto semantico geospaziale migliori l'etichettatura audio multi-etichetta riducendo le ambiguità acustiche.

Yuanbo Hou, Yanru Wu, Qiaoqiao Ren, Shengchen Li, Stephen Roberts, Dick BotteldoorenThu, 12 Ma⚡ eess

MOS-Bias: From Hidden Gender Bias to Gender-Aware Speech Quality Assessment

Questo studio rivela un sistematico bias di genere nel Mean Opinion Score (MOS), dove gli ascoltatori maschi assegnano punteggi più alti rispetto alle femmine, e propone un modello di valutazione della qualità vocale consapevole del genere per correggere tale distorsione e migliorare l'accuratezza predittiva.

Wenze Ren, Yi-Cheng Lin, Wen-Chin Huang, Erica Cooper, Ryandhimas E. Zezario, Hsin-Min Wang, Hung-yi Lee, Yu TsaoThu, 12 Ma⚡ eess

Efficient Emotion and Speaker Adaptation in LLM-Based TTS via Characteristic-Specific Partial Fine-Tuning

Il paper propone CSP-FT, una strategia di parziale fine-tuning specifico per le caratteristiche che, aggiornando solo circa l'8% dei parametri, migliora l'adattamento a emozioni e voci non viste nei modelli TTS basati su LLM, riducendo i tempi di addestramento e mitigando l'oblio catastrofico senza compromettere fedeltà e intelligibilità.

Tianrui Wang, Meng Ge, Cheng Gong, Chunyu Qiang, Haoyu Wang, Zikang Huang, Yu Jiang, Ye Ni, Yuheng Lu, Xiaobao Wang, Engsiong Chng, Xie Chen, Longbiao Wang, Jianwu DangMon, 09 Ma💻 cs

The trajectoRIR Database: Room Acoustic Recordings Along a Trajectory of Moving Microphones

Questo articolo presenta il database trajectoRIR, una raccolta estesa e unica di registrazioni acustiche statiche e dinamiche lungo una traiettoria controllata, ottenuta con diverse configurazioni di microfoni montati su un carrello robotico, destinata a supportare compiti avanzati di elaborazione del segnale audio come la localizzazione delle sorgenti sonore e la ricostruzione del campo acustico.

Stefano Damiano, Kathleen MacWilliam, Valerio Lorenzoni, Thomas Dietzen, Toon van WaterschootMon, 09 Ma⚡ eess

ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction

Il paper introduce ParaS2S, un nuovo framework di apprendimento per rinforzo e un benchmark associato che migliorano significativamente la capacità dei modelli di parlare-parlare di comprendere e rispondere adeguatamente sia al contenuto che agli aspetti paralinguistici (come tono ed emozione) direttamente a livello di forma d'onda, superando i limiti delle attuali soluzioni basate su pipeline o sul solo fine-tuning supervisionato.

Shu-wen Yang, Ming Tu, Andy T. Liu, Xinghua Qu, Hung-yi Lee, Lu Lu, Yuxuan Wang, Yonghui WuMon, 09 Ma⚡ eess

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

Il paper propone un nuovo framework end-to-end per il riconoscimento visivo-uditivo del parlato che, eliminando la necessità di maschere esplicita per la rimozione del rumore, utilizza un modulo di fusione basato su Conformer per migliorare implicitamente le caratteristiche audio tramite quelle video, ottenendo prestazioni superiori rispetto ai metodi esistenti in condizioni rumorose.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei YinMon, 09 Ma🤖 cs.AI

The Cascade Equivalence Hypothesis: When Do Speech LLMs Behave Like ASR $\rightarrow$ LLM Pipelines?

Il paper dimostra che, nonostante la credenza comune, gli Speech LLM attuali spesso si comportano come costose catene ASR-LLM e possono persino peggiorare le prestazioni rispetto a queste pipeline in condizioni di rumore, poiché le loro rappresentazioni interne dipendono causalmente dalla trascrizione testuale.

Jayadev BillaMon, 09 Ma🤖 cs.AI

LMU-Based Sequential Learning and Posterior Ensemble Fusion for Cross-Domain Infant Cry Classification

Questo articolo propone un framework acustico compatto che combina un codificatore CNN multi-ramo con un'unità di memoria Legendre (LMU) e una fusione di ensemble calibrata per migliorare la classificazione cross-dominio dei pianti infantili, affrontando le sfide legate alla non stazionarietà dei segnali, alla scarsità di annotazioni e ai forti spostamenti di dominio.

Niloofar Jazaeri, Hilmi R. Dajani, Marco Janeczek, Martin BouchardMon, 09 Ma🤖 cs.LG

Whisper-RIR-Mega: A Paired Clean-Reverberant Speech Benchmark for ASR Robustness to Room Acoustics

Il paper introduce Whisper-RIR-Mega, un nuovo benchmark di dati accoppiati (puliti e riverberati) basato su LibriSpeech e RIR-Mega per valutare la robustezza dei modelli ASR Whisper alle acustiche degli ambienti, dimostrando come il riverbero degradi sistematicamente le prestazioni.

Mandip GoswamiMon, 09 Ma🤖 cs.AI

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

Il paper presenta Omni-C, un singolo encoder denso basato su Transformer che comprime modalità eterogenee (immagini, audio e testo) in rappresentazioni condivise tramite pre-addestramento contrastivo, eliminando la necessità di architetture Mixture-of-Experts e riducendo significativamente l'uso di memoria rispetto ai modelli multimodali tradizionali.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de GusmãoMon, 09 Ma🤖 cs.AI

Activation Steering for Accent Adaptation in Speech Foundation Models

Questo studio propone un metodo di "steering" dei parametri-free per l'adattamento all'accento nei modelli fonamentali del parlato, identificando che le informazioni relative all'accento sono concentrate in un ristretto intervallo di strati intermedi e riducendo l'errore di riconoscimento lessicale modificando direttamente le attivazioni durante l'inferenza.

Jinuo Sun, Yang Xiao, Sung Kyun Chung, Qiuchi Hu, Gongping Huang, Eun-Jung Holden, Ting DangMon, 09 Ma⚡ eess

← Precedente Successivo →

eess.AS