cs.SD artículos | Gist.Science

Trade-offs between structural richness and communication efficiency in music network representations

Este estudio demuestra que la elección de la codificación de características en las representaciones en red de la música genera una compensación fundamental entre la riqueza estructural y la eficiencia comunicativa, determinando cómo se distribuye la incertidumbre y la viabilidad de que dicha incertidumbre sirva como un proxy plausible para las expectativas perceptuales humanas.

Lluc Bono Rosselló, Robert Jankowski, Hugues Bersini, Marián Boguñá, M. Ángeles SerranoThu, 12 Ma🧬 q-bio

Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention

El artículo presenta Dolphin, un método eficiente de separación de habla audiovisual que utiliza un codificador de labios ligero y atención global-local multiescala para superar la calidad de los modelos actuales mientras reduce significativamente los parámetros, el costo computacional y el tiempo de inferencia.

Kai Li, Kejun Gao, Xiaolin HuThu, 12 Ma💻 cs

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

El artículo presenta HyWA, un enfoque de detección de actividad vocal personalizada que utiliza una hiperred para generar pesos adaptados a un hablante específico en capas seleccionadas de un modelo estándar, logrando mejoras consistentes en el rendimiento y facilitando el despliegue al reutilizar la misma arquitectura.

Mahsa Ghazvini Nejad, Hamed Jafarzadeh Asl, Amin Edraki, Mohammadreza Sadeghi, Masoud Asgharian, Yuanhao Yu, Vahid Partovi NiaThu, 12 Ma⚡ eess

Evaluation of Audio Compression Codecs

El artículo evalúa varios códecs de compresión de audio comunes mediante mediciones de rendimiento, visualizaciones y puntuaciones PEAQ para demostrar que, al elegir un códec, los usuarios deben considerar no solo la eficiencia de compresión sino también la calidad perceptual sónica.

Thien T. Duong, Jan P. SpringerThu, 12 Ma💻 cs

AMB-DSGDN: Adaptive Modality-Balanced Dynamic Semantic Graph Differential Network for Multimodal Emotion Recognition

El artículo presenta AMB-DSGDN, una red neuronal que mejora el reconocimiento de emociones multimodales mediante la construcción de grafos semánticos dinámicos específicos por modalidad y mecanismos de atención diferencial y balanceo adaptativo para eliminar el ruido y equilibrar las contribuciones de texto, audio y visión.

Yunsheng Wang, Yuntao Shou, Yilong Tan, Wei Ai, Tao Meng, Keqin LiThu, 12 Ma🤖 cs.AI

nlm: Real-Time Non-linear Modal Synthesis in Max

El artículo presenta \texttt{nlm}, un conjunto de extensiones de código abierto en C++ para el entorno Max que habilitan la síntesis modal no lineal en tiempo real para cuerdas, membranas y placas, facilitando el control interactivo de parámetros físicos y la carga de datos modales personalizados para compositores y diseñadores sonoros.

Rodrigo Diaz, Rodrigo Constanzo, Mark SandlerThu, 12 Ma⚡ eess

ID-LoRA: Identity-Driven Audio-Video Personalization with In-Context LoRA

ID-LoRA es un modelo generativo pionero que personaliza simultáneamente la apariencia visual y la voz de un sujeto en un solo paso, utilizando una adaptación eficiente de parámetros (In-Context LoRA) sobre una arquitectura de difusión audio-video para superar las limitaciones de sincronización y control de estilo de los métodos existentes.

Aviad Dahan, Moran Yanuka, Noa Kraicer, Lior Wolf, Raja GiryesThu, 12 Ma💻 cs

PRoADS: Provably Secure and Robust Audio Diffusion Steganography with latent optimization and backward Euler Inversion

El artículo presenta PRoADS, un marco de esteganografía de audio basado en modelos de difusión que logra una seguridad probada y una alta robustez mediante la proyección de mensajes secretos en el ruido inicial y la optimización de la inversión mediante técnicas de Latent Optimization y Backward Euler, logrando una tasa de error de bits extremadamente baja del 0,15% incluso bajo compresión MP3.

YongPeng Yan, Yanan Li, Qiyang Xiao, Yanzhen RenThu, 12 Ma💻 cs

NasoVoce: A Nose-Mounted Low-Audibility Speech Interface for Always-Available Speech Interaction

El paper presenta NasoVoce, una interfaz montada en la nariz que fusiona señales acústicas y de vibración para capturar el habla silenciosa y susurrada de manera robusta frente al ruido, permitiendo interacciones de voz discretas y siempre disponibles con IA.

Jun Rekimoto, Yu Nishimura, Bojian YangThu, 12 Ma🤖 cs.AI

FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System

El artículo presenta FireRedASR2S, un sistema industrial de reconocimiento automático del habla de última generación que integra módulos unificados de detección de actividad vocal, identificación de lenguaje hablado, predicción de puntuación y transcripción de habla y canto en múltiples idiomas y dialectos, superando el estado del arte en diversos benchmarks.

Kaituo Xu, Yan Jia, Kai Huang, Junjie Chen, Wenpeng Li, Kun Liu, Feng-Long Xie, Xu Tang, Yao HuThu, 12 Ma⚡ eess

MoXaRt: Audio-Visual Object-Guided Sound Interaction for XR

MoXaRt es un sistema de Realidad Extendida en tiempo real que utiliza una arquitectura en cascada con guías audiovisuales para separar fuentes sonoras concurrentes, mejorando significativamente la inteligibilidad del habla y reduciendo la carga cognitiva en entornos acústicos complejos.

Tianyu Xu, Sieun Kim, Qianhui Zheng, Ruoyu Xu, Tejasvi Ravi, Anuva Kulkarni, Katrina Passarella-Ward, Junyi Zhu, Adarsh KowdleThu, 12 Ma💻 cs

G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition

El artículo presenta G-STAR, un sistema de reconocimiento automático de habla (ASR) con atribución de hablantes de extremo a extremo que combina un módulo de seguimiento temporal con un modelo de lenguaje grande (Speech-LLM) para generar transcripciones etiquetadas por hablante con consistencia global en conversaciones largas y superpuestas.

Jing Peng, Ziyi Chen, Haoyu Li, Yucheng Wang, Duo Ma, Mengtian Li, Yunfan Du, Dezhu Xu, Kai Yu, Shuai WangThu, 12 Ma⚡ eess

Distilling LLM Semantic Priors into Encoder-Only Multi-Talker ASR with Talker-Count Routing

Este trabajo propone un marco de reconocimiento automático de habla multi-parlante basado únicamente en un codificador que destila las priores semánticas de un modelo de lenguaje grande para regularizar las representaciones de habla mezclada y utiliza un cabezal de conteo de hablantes para la selección dinámica de ramas, logrando un rendimiento comparable o superior a los sistemas basados en LLM con una menor complejidad computacional.

Hao Shi, Yusuke Fujita, Roman Koshkin, Mengjie Zhao, Yuan Gao, Lianbo Liu, Yui SudoThu, 12 Ma💻 cs

Geo-ATBench: A Benchmark for Geospatial Audio Tagging with Geospatial Semantic Context

El artículo presenta Geo-ATBench, un nuevo conjunto de datos y marco de referencia para la etiquetado de audio geoespacial que demuestra cómo integrar el contexto semántico geográfico mejora la precisión en la identificación de eventos sonoros, especialmente cuando la información acústica por sí sola es ambigua.

Yuanbo Hou, Yanru Wu, Qiaoqiao Ren, Shengchen Li, Stephen Roberts, Dick BotteldoorenThu, 12 Ma⚡ eess

AlphaFlowTSE: One-Step Generative Target Speaker Extraction via Conditional AlphaFlow

El artículo presenta AlphaFlowTSE, un modelo generativo condicional de un solo paso para la extracción de hablantes objetivo que, mediante un objetivo AlphaFlow libre de productos vectoriales-jacobiano y una estrategia de enseñanza-estudiante, mejora la fidelidad del habla y la generalización en escenarios reales sin depender de coordenadas temporales mixtas.

Duojia Li, Shuhan Zhang, Zihan Qian, Wenxuan Wu, Shuai Wang, Qingyang Hong, Lin Li, Haizhou LiThu, 12 Ma🤖 cs.AI

Probabilistic Verification of Voice Anti-Spoofing Models

El artículo presenta PV-VASM, un marco probabilístico modelo-agnóstico que verifica formalmente la robustez de los modelos de detección de suplantación de voz frente a técnicas de síntesis de voz no vistas y perturbaciones, proporcionando un límite superior teórico para la probabilidad de error.

Evgeny Kushnir, Alexandr Kozodaev, Dmitrii Korzh, Mikhail Pautov, Oleg Kiriukhin, Oleg Y. RogovThu, 12 Ma🤖 cs.AI

Towards Robust Speech Deepfake Detection via Human-Inspired Reasoning

Este artículo presenta HIR-SDD, un nuevo marco de detección de deepfakes de voz que combina Modelos de Lenguaje de Audio Grandes con razonamiento de cadena de pensamiento derivado de un conjunto de datos anotado por humanos para mejorar la generalización y la interpretabilidad de las predicciones.

Artem Dvirniak, Evgeny Kushnir, Dmitrii Tarasov, Artem Iudin, Oleg Kiriukhin, Mikhail Pautov, Dmitrii Korzh, Oleg Y. RogovThu, 12 Ma🤖 cs.AI

Speaker Verification with Speech-Aware LLMs: Evaluation and Augmentation

Este artículo presenta un protocolo de evaluación que revela la débil capacidad de verificación de hablantes en los LLMs conscientes del habla y propone una solución de aumento ligera que integra embeddings de hablantes congelados con adaptadores LoRA, logrando un rendimiento comparable a sistemas dedicados en modelos como TinyLLaMA-1.1B.

Thomas Thebaud, Yuzhe Wang, Laureano Moro-Velazquez, Jesus Villalba-Lopez, Najim DehakThu, 12 Ma🤖 cs.AI

OSUM-Pangu: An Open-Source Multidimension Speech Understanding Foundation Model Built upon OpenPangu on Ascend NPUs

El artículo presenta OSUM-Pangu, un modelo fundacional de comprensión de voz de código abierto desarrollado completamente en la plataforma Ascend NPU sin CUDA, que integra un codificador de audio con OpenPangu-7B para lograr un rendimiento comparable a los modelos basados en GPU y fomentar la evolución independiente de la inteligencia multimodal.

Yujie Liao, Xuelong Geng, Hongfei Xue, Shuiyuan Wang, Lei XieThu, 12 Ma💻 cs

VoxCare: Studying Natural Communication Behaviors of Hospital Caregivers through Wearable Sensing of Egocentric Audio

El estudio presenta VoxCare, un sistema escalable de sensores auditivos corporales que analiza en tiempo real los patrones de comunicación natural de los profesionales sanitarios sin almacenar audio crudo, revelando cómo estas interacciones reflejan la carga de trabajo y el estrés para mejorar la entrega de cuidados.

Tiantian Feng, Kleanthis Avramidis, Anfeng Xu, Deqi Wang, Brandon M Booth, Shrikanth NarayananThu, 12 Ma💻 cs

← Anterior Siguiente →