Trade-offs between structural richness and communication efficiency in music network representations

Questo studio dimostra che la scelta delle caratteristiche per rappresentare la musica come rete di transizioni crea un compromesso fondamentale tra la ricchezza strutturale e l'efficienza comunicativa, influenzando direttamente la distribuzione dell'incertezza e la plausibilità psicologica delle aspettative uditive.

Lluc Bono Rosselló, Robert Jankowski, Hugues Bersini, Marián Boguñá, M. Ángeles SerranoThu, 12 Ma🧬 q-bio

Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention

Il paper presenta Dolphin, un metodo efficiente per la separazione del parlato audio-visivo che utilizza un codificatore video leggero basato su semantica labiale discreta e un meccanismo di attenzione globale-locale multi-scala, ottenendo prestazioni superiori allo stato dell'arte con una significativa riduzione dei parametri e del tempo di inferenza.

Kai Li, Kejun Gao, Xiaolin HuThu, 12 Ma💻 cs

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

Il paper propone HyWA, un metodo che utilizza una rete iperperazionale per generare pesi personalizzati in un modello VAD standard, migliorando le prestazioni di rilevamento della voce del parlante target e semplificando il deployment rispetto alle tecniche di condizionamento esistenti.

Mahsa Ghazvini Nejad, Hamed Jafarzadeh Asl, Amin Edraki, Mohammadreza Sadeghi, Masoud Asgharian, Yuanhao Yu, Vahid Partovi NiaThu, 12 Ma⚡ eess

AMB-DSGDN: Adaptive Modality-Balanced Dynamic Semantic Graph Differential Network for Multimodal Emotion Recognition

Il paper propone AMB-DSGDN, una rete neurale che utilizza un meccanismo di attenzione differenziale su grafi dinamici e un bilanciamento adattivo delle modalità per migliorare il riconoscimento delle emozioni nei dialoghi multimodali filtrando il rumore e prevenendo il dominio di una singola modalità.

Yunsheng Wang, Yuntao Shou, Yilong Tan, Wei Ai, Tao Meng, Keqin LiThu, 12 Ma🤖 cs.AI

ID-LoRA: Identity-Driven Audio-Video Personalization with In-Context LoRA

Il paper presenta ID-LoRA, un modello generativo unico che personalizza simultaneamente l'aspetto visivo e la voce di un soggetto in un singolo passaggio, superando le limitazioni dei metodi attuali che trattano audio e video separatamente e ottenendo risultati superiori rispetto a Kling 2.6 Pro in termini di somiglianza vocale e stile di parlato.

Aviad Dahan, Moran Yanuka, Noa Kraicer, Lior Wolf, Raja GiryesThu, 12 Ma💻 cs

FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System

Il paper presenta FireRedASR2S, un sistema industriale all-in-one di riconoscimento vocale all'avanguardia che integra moduli SOTA per la trascrizione (con supporto per dialetti cinesi e code-switching), il rilevamento dell'attività vocale, l'identificazione della lingua parlata e la punteggiatura, superando le prestazioni di soluzioni concorrenti su numerosi benchmark.

Kaituo Xu, Yan Jia, Kai Huang, Junjie Chen, Wenpeng Li, Kun Liu, Feng-Long Xie, Xu Tang, Yao HuThu, 12 Ma⚡ eess

Distilling LLM Semantic Priors into Encoder-Only Multi-Talker ASR with Talker-Count Routing

Questo articolo presenta un framework ASR multi-parlante basato su un solo encoder che distilla le conoscenze semantiche di un modello linguistico grande (LLM) per migliorare il riconoscimento in presenza di sovrapposizioni, mantenendo un'efficienza computazionale superiore e introducendo un meccanismo di routing dinamico basato sul numero di parlanti.

Hao Shi, Yusuke Fujita, Roman Koshkin, Mengjie Zhao, Yuan Gao, Lianbo Liu, Yui SudoThu, 12 Ma💻 cs

AlphaFlowTSE: One-Step Generative Target Speaker Extraction via Conditional AlphaFlow

Il paper presenta AlphaFlowTSE, un modello generativo condizionale a un solo passo per l'estrazione della voce del parlante target che, grazie a un obiettivo AlphaFlow privo di prodotti vettore-Jacobiano e a una strategia di insegnamento-studente, migliora la fedeltà della voce estratta e la generalizzazione in scenari reali riducendo la latenza rispetto ai metodi iterativi.

Duojia Li, Shuhan Zhang, Zihan Qian, Wenxuan Wu, Shuai Wang, Qingyang Hong, Lin Li, Haizhou LiThu, 12 Ma🤖 cs.AI

VoxCare: Studying Natural Communication Behaviors of Hospital Caregivers through Wearable Sensing of Egocentric Audio

Il paper presenta VoxCare, un sistema indossabile scalabile che analizza in tempo reale i comportamenti comunicativi naturali degli operatori sanitari negli ospedali tramite l'estrazione di caratteristiche acustiche senza memorizzare l'audio grezzo, rivelando come tali pattern riflettano il carico di lavoro e lo stress per migliorare l'erogazione delle cure.

Tiantian Feng, Kleanthis Avramidis, Anfeng Xu, Deqi Wang, Brandon M Booth, Shrikanth NarayananThu, 12 Ma💻 cs