cs.SD articoli | Gist.Science

Trade-offs between structural richness and communication efficiency in music network representations

Questo studio dimostra che la scelta delle caratteristiche per rappresentare la musica come rete di transizioni crea un compromesso fondamentale tra la ricchezza strutturale e l'efficienza comunicativa, influenzando direttamente la distribuzione dell'incertezza e la plausibilità psicologica delle aspettative uditive.

Lluc Bono Rosselló, Robert Jankowski, Hugues Bersini, Marián Boguñá, M. Ángeles SerranoThu, 12 Ma🧬 q-bio

Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention

Il paper presenta Dolphin, un metodo efficiente per la separazione del parlato audio-visivo che utilizza un codificatore video leggero basato su semantica labiale discreta e un meccanismo di attenzione globale-locale multi-scala, ottenendo prestazioni superiori allo stato dell'arte con una significativa riduzione dei parametri e del tempo di inferenza.

Kai Li, Kejun Gao, Xiaolin HuThu, 12 Ma💻 cs

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

Il paper propone HyWA, un metodo che utilizza una rete iperperazionale per generare pesi personalizzati in un modello VAD standard, migliorando le prestazioni di rilevamento della voce del parlante target e semplificando il deployment rispetto alle tecniche di condizionamento esistenti.

Mahsa Ghazvini Nejad, Hamed Jafarzadeh Asl, Amin Edraki, Mohammadreza Sadeghi, Masoud Asgharian, Yuanhao Yu, Vahid Partovi NiaThu, 12 Ma⚡ eess

Evaluation of Audio Compression Codecs

Il documento valuta diversi codec di compressione audio, sostenendo che gli utenti dovrebbero considerare non solo l'efficienza di compressione ma anche la qualità percettiva sonora per scegliere lo schema di compressione più adatto.

Thien T. Duong, Jan P. SpringerThu, 12 Ma💻 cs

AMB-DSGDN: Adaptive Modality-Balanced Dynamic Semantic Graph Differential Network for Multimodal Emotion Recognition

Il paper propone AMB-DSGDN, una rete neurale che utilizza un meccanismo di attenzione differenziale su grafi dinamici e un bilanciamento adattivo delle modalità per migliorare il riconoscimento delle emozioni nei dialoghi multimodali filtrando il rumore e prevenendo il dominio di una singola modalità.

Yunsheng Wang, Yuntao Shou, Yilong Tan, Wei Ai, Tao Meng, Keqin LiThu, 12 Ma🤖 cs.AI

nlm: Real-Time Non-linear Modal Synthesis in Max

Il paper presenta \texttt{nlm}, un set di externals Max open-source implementati in C++ che abilitano la sintesi modale non lineare in tempo reale per corde, membrane e piastre, offrendo un controllo interattivo dei parametri fisici e facilitando l'accesso a questa tecnica espressiva per compositori e sound designer.

Rodrigo Diaz, Rodrigo Constanzo, Mark SandlerThu, 12 Ma⚡ eess

ID-LoRA: Identity-Driven Audio-Video Personalization with In-Context LoRA

Il paper presenta ID-LoRA, un modello generativo unico che personalizza simultaneamente l'aspetto visivo e la voce di un soggetto in un singolo passaggio, superando le limitazioni dei metodi attuali che trattano audio e video separatamente e ottenendo risultati superiori rispetto a Kling 2.6 Pro in termini di somiglianza vocale e stile di parlato.

Aviad Dahan, Moran Yanuka, Noa Kraicer, Lior Wolf, Raja GiryesThu, 12 Ma💻 cs

PRoADS: Provably Secure and Robust Audio Diffusion Steganography with latent optimization and backward Euler Inversion

Il documento presenta PRoADS, un framework di steganografia audio basato su modelli di diffusione che garantisce sicurezza e robustezza attraverso l'ottimizzazione dello spazio latente e l'inversione di Eulero all'indietro, ottenendo un tasso di errore dei bit estremamente basso anche dopo la compressione MP3.

YongPeng Yan, Yanan Li, Qiyang Xiao, Yanzhen RenThu, 12 Ma💻 cs

NasoVoce: A Nose-Mounted Low-Audibility Speech Interface for Always-Available Speech Interaction

Il paper presenta NasoVoce, un'interfaccia montata sul ponte del naso che integra microfoni e sensori di vibrazione per catturare segnali acustici e ossei, permettendo conversazioni vocali con l'IA sempre disponibili, discrete e robuste al rumore ambientale.

Jun Rekimoto, Yu Nishimura, Bojian YangThu, 12 Ma🤖 cs.AI

FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System

Il paper presenta FireRedASR2S, un sistema industriale all-in-one di riconoscimento vocale all'avanguardia che integra moduli SOTA per la trascrizione (con supporto per dialetti cinesi e code-switching), il rilevamento dell'attività vocale, l'identificazione della lingua parlata e la punteggiatura, superando le prestazioni di soluzioni concorrenti su numerosi benchmark.

Kaituo Xu, Yan Jia, Kai Huang, Junjie Chen, Wenpeng Li, Kun Liu, Feng-Long Xie, Xu Tang, Yao HuThu, 12 Ma⚡ eess

MoXaRt: Audio-Visual Object-Guided Sound Interaction for XR

Il paper presenta MoXaRt, un sistema XR in tempo reale che utilizza un'architettura cascata audio-visiva per isolare fino a cinque fonti sonore simultanee, migliorando significativamente l'intelligibilità del parlato e riducendo il carico cognitivo in ambienti acustici complessi.

Tianyu Xu, Sieun Kim, Qianhui Zheng, Ruoyu Xu, Tejasvi Ravi, Anuva Kulkarni, Katrina Passarella-Ward, Junyi Zhu, Adarsh KowdleThu, 12 Ma💻 cs

G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition

Il paper presenta G-STAR, un sistema end-to-end che combina un modulo di tracciamento speaker temporale con un Speech-LLM per generare trascrizioni attribuite con timestamp in contesti di parlato multi-parlante e sovrapposto, garantendo coerenza dell'identità a livello di riunione.

Jing Peng, Ziyi Chen, Haoyu Li, Yucheng Wang, Duo Ma, Mengtian Li, Yunfan Du, Dezhu Xu, Kai Yu, Shuai WangThu, 12 Ma⚡ eess

Distilling LLM Semantic Priors into Encoder-Only Multi-Talker ASR with Talker-Count Routing

Questo articolo presenta un framework ASR multi-parlante basato su un solo encoder che distilla le conoscenze semantiche di un modello linguistico grande (LLM) per migliorare il riconoscimento in presenza di sovrapposizioni, mantenendo un'efficienza computazionale superiore e introducendo un meccanismo di routing dinamico basato sul numero di parlanti.

Hao Shi, Yusuke Fujita, Roman Koshkin, Mengjie Zhao, Yuan Gao, Lianbo Liu, Yui SudoThu, 12 Ma💻 cs

Geo-ATBench: A Benchmark for Geospatial Audio Tagging with Geospatial Semantic Context

Il paper introduce Geo-ATBench, un benchmark e un framework di fusione audio-geospaziale che dimostra come l'integrazione del contesto semantico geospaziale migliori l'etichettatura audio multi-etichetta riducendo le ambiguità acustiche.

Yuanbo Hou, Yanru Wu, Qiaoqiao Ren, Shengchen Li, Stephen Roberts, Dick BotteldoorenThu, 12 Ma⚡ eess

AlphaFlowTSE: One-Step Generative Target Speaker Extraction via Conditional AlphaFlow

Il paper presenta AlphaFlowTSE, un modello generativo condizionale a un solo passo per l'estrazione della voce del parlante target che, grazie a un obiettivo AlphaFlow privo di prodotti vettore-Jacobiano e a una strategia di insegnamento-studente, migliora la fedeltà della voce estratta e la generalizzazione in scenari reali riducendo la latenza rispetto ai metodi iterativi.

Duojia Li, Shuhan Zhang, Zihan Qian, Wenxuan Wu, Shuai Wang, Qingyang Hong, Lin Li, Haizhou LiThu, 12 Ma🤖 cs.AI

Probabilistic Verification of Voice Anti-Spoofing Models

Il paper propone PV-VASM, un framework probabilistico e agnostico rispetto al modello per verificare la robustezza dei sistemi di anti-spoofing vocale contro deepfake generati da TTS, clonazione vocale e trasformazioni parametriche, fornendo un limite teorico superiore sulla probabilità di errore.

Evgeny Kushnir, Alexandr Kozodaev, Dmitrii Korzh, Mikhail Pautov, Oleg Kiriukhin, Oleg Y. RogovThu, 12 Ma🤖 cs.AI

Towards Robust Speech Deepfake Detection via Human-Inspired Reasoning

Il paper presenta HIR-SDD, un nuovo framework per la rilevazione di deepfake vocali che combina i Large Audio Language Models con un ragionamento a catena di pensiero ispirato all'uomo, migliorando sia la generalizzazione su nuovi domini audio che l'interpretabilità delle previsioni.

Artem Dvirniak, Evgeny Kushnir, Dmitrii Tarasov, Artem Iudin, Oleg Kiriukhin, Mikhail Pautov, Dmitrii Korzh, Oleg Y. RogovThu, 12 Ma🤖 cs.AI

Speaker Verification with Speech-Aware LLMs: Evaluation and Augmentation

Questo lavoro valuta la capacità di identificazione vocale dei modelli linguistici multimodali, proponendo un protocollo di valutazione unificato e un metodo di augmentation leggero che integra embedding speaker per ottenere prestazioni di verifica vocale competitive mantenendo un'interfaccia linguistica naturale.

Thomas Thebaud, Yuzhe Wang, Laureano Moro-Velazquez, Jesus Villalba-Lopez, Najim DehakThu, 12 Ma🤖 cs.AI

OSUM-Pangu: An Open-Source Multidimension Speech Understanding Foundation Model Built upon OpenPangu on Ascend NPUs

Il paper presenta OSUM-Pangu, un modello fondazionale open-source per la comprensione del parlato sviluppato interamente su hardware Ascend NPU e software non-CUDA, che integra un encoder audio con il modello linguistico OpenPangu-7B per ottenere prestazioni comparabili alle soluzioni basate su GPU.

Yujie Liao, Xuelong Geng, Hongfei Xue, Shuiyuan Wang, Lei XieThu, 12 Ma💻 cs

VoxCare: Studying Natural Communication Behaviors of Hospital Caregivers through Wearable Sensing of Egocentric Audio

Il paper presenta VoxCare, un sistema indossabile scalabile che analizza in tempo reale i comportamenti comunicativi naturali degli operatori sanitari negli ospedali tramite l'estrazione di caratteristiche acustiche senza memorizzare l'audio grezzo, rivelando come tali pattern riflettano il carico di lavoro e lo stress per migliorare l'erogazione delle cure.

Tiantian Feng, Kleanthis Avramidis, Anfeng Xu, Deqi Wang, Brandon M Booth, Shrikanth NarayananThu, 12 Ma💻 cs

← Precedente Successivo →