cs.SD artículos | Gist.Science

Textless and Non-Parallel Speech-to-Speech Emotion Style Transfer

Este artículo presenta S2S-ZEST, un marco de transferencia de estilo emocional voz-a-voz sin texto y no paralelo que logra imitar la emoción de una referencia preservando el contenido y la identidad del hablante de la fuente mediante un pipeline de análisis-síntesis basado en tokens semánticos y embeddings de emoción.

Soumya Dutta, Avni Jain, Sriram GanapathyWed, 11 Ma⚡ eess

Fast-Converging Distributed Signal Estimation in Topology-Unconstrained Wireless Acoustic Sensor Networks

Este artículo presenta TI-DANSE+, un algoritmo mejorado de estimación de señales distribuida en redes de sensores acústicos inalámbricos que acelera la convergencia al utilizar sumas parciales de señales de los vecinos y una estrategia de poda de árboles, logrando un rendimiento superior en velocidad y eficiencia de ancho de banda en comparación con los métodos DANSE y TI-DANSE existentes.

Paul Didier, Toon van Waterschoot, Simon Doclo, Jörg Bitzer, Marc MoonenWed, 11 Ma⚡ eess

Human-CLAP: Human-perception-based contrastive language-audio pretraining

El artículo presenta Human-CLAP, un modelo de entrenamiento contrastivo lenguaje-audio basado en la percepción humana que, al entrenarse con puntuaciones de evaluación subjetiva, mejora significativamente la correlación entre las métricas automáticas y la evaluación humana en comparación con el CLAP convencional.

Taisei Takano, Yuki Okamoto, Yusuke Kanamori, Yuki Saito, Ryotaro Nagase, Hiroshi SaruwatariWed, 11 Ma⚡ eess

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

El artículo presenta VSSFlow, un marco unificado basado en flujo-matching que integra la generación de sonido y habla condicionada por video mediante un mecanismo de agregación de condiciones disociado, demostrando que el aprendizaje conjunto supera a los modelos especializados sin degradar el rendimiento.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

VoiceBridge: General Speech Restoration with One-step Latent Bridge Models

El artículo presenta VoiceBridge, un modelo de puente latente de un solo paso que utiliza un autoencoder variacional que preserva la energía y un prior neuronal conjunto para restaurar de manera eficiente y general el habla de alta calidad a partir de diversas distorsiones sin necesidad de destilación.

Chi Zhang, Kaiwen Zheng, Zehua Chen, Jun ZhuWed, 11 Ma🤖 cs.AI

LARA-Gen: Enabling Continuous Emotion Control for Music Generation Models via Latent Affective Representation Alignment

El artículo presenta LARA-Gen, un marco que habilita el control continuo y fino de las emociones en la generación de música mediante la alineación de representaciones latentes afectivas y un módulo basado en el espacio valencia-activación, superando las limitaciones de los enfoques basados en texto y logrando un rendimiento superior en adherencia emocional y calidad musical.

Jiahao Mei, Xuenan Xu, Zeyu Xie, Zihao Zheng, Ye Tao, Yue Ding, Mengyue WuWed, 11 Ma💻 cs

Noise-Conditioned Mixture-of-Experts Framework for Robust Speaker Verification

Este artículo presenta un marco de mezcla de expertos condicionado por el ruido que mejora la verificación de hablantes en entornos ruidosos mediante el descomposición del espacio de características en subespacios especializados, un mecanismo de enrutamiento inteligente y un protocolo de aprendizaje curricular.

Bin Gu, Haitao Zhao, Jibo WeiWed, 11 Ma⚡ eess

Modeling strategies for speech enhancement in the latent space of a neural audio codec

Este trabajo compara estrategias de mejora de voz en el espacio latente de códecs de audio neuronales, revelando que la predicción de representaciones continuas y el ajuste fino del codificador logran los mejores resultados, aunque los modelos no autoregresivos ofrecen un equilibrio más atractivo entre calidad, inteligibilidad y eficiencia.

Sofiene Kammoun, Xavier Alameda-Pineda, Simon LeglaiveWed, 11 Ma⚡ eess

Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound

Este trabajo presenta el primer marco formal para Modelos de Mundo Audiovisuales (AVWM), introduciendo el conjunto de datos AVW-4k y el modelo AV-CDiT para simular dinámicas ambientales sincronizadas en audio y visión, lo que mejora significativamente la planificación y navegación de agentes en entornos multisensoriales.

Jiahua Wang, Leqi Zheng, Jialong Wu, Yaoxin MaoWed, 11 Ma💻 cs

Head, posture, and full-body gestures in unscripted dyadic conversations in noise

Este estudio demuestra que, en conversaciones cara a cara ruidosas, los hablantes aumentan la complejidad de sus gestos y el volumen de voz, mientras que los oyentes intensifican sus señales de retroalimentación y ajustan sus movimientos corporales para mantener la comunicación, aunque la sincronía entre el habla y los gestos disminuye ligeramente en niveles de ruido moderado.

Luboš Hládek, Bernhard U. SeeberWed, 11 Ma⚡ eess

Rethinking Discrete Speech Representation Tokens for Accent Generation

Este artículo presenta la primera investigación sistemática sobre cómo se codifica la información de acento en los tokens de representación de voz discreta (DSRT), proponiendo un marco de evaluación unificado que revela que la selección de capas es el factor más determinante para retener dicha información, mientras que la supervisión ASR la reduce significativamente y la reducción ingenua del tamaño del código no logra desvincular el acento de la fonética y el hablante.

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter BellWed, 11 Ma⚡ eess

EDMFormer: Genre-Specific Self-Supervised Learning for Music Structure Segmentation

El artículo presenta EDMFormer, un modelo transformer que utiliza aprendizaje auto-supervisado y el nuevo conjunto de datos EDM-98 para mejorar significativamente la segmentación estructural de la música electrónica de baile, abordando las limitaciones de los enfoques existentes que se basan en similitudes líricas o armónicas inadecuadas para este género.

Sahal Sajeer, Krish Patel, Oscar Chung, Joel Song BaeWed, 11 Ma🤖 cs.AI

Fish Audio S2 Technical Report

El informe técnico presenta Fish Audio S2, un sistema de texto a voz de código abierto que permite la generación multi-locutor y multi-turno con control mediante instrucciones en lenguaje natural, destacando por su alta eficiencia en inferencia en tiempo real y la disponibilidad pública de sus pesos y herramientas.

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei HanWed, 11 Ma🤖 cs.AI

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

El artículo presenta VoxEmo, un benchmark integral para la evaluación de modelos de lenguaje de voz en el reconocimiento de emociones, que aborda desafíos como la variabilidad de los prompts y la ambigüedad humana mediante un conjunto de datos multilingüe, un protocolo de etiquetas suaves y estrategias de consenso para alinear mejor los resultados generativos con la percepción subjetiva humana.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

Universal Speech Content Factorization

El artículo presenta la Factorización Universal de Contenido de Voz (USCF), un método lineal e invertible que extrae representaciones de bajo rango preservando el contenido fonético mientras suprime el timbre del hablante, permitiendo la conversión de voz en ceros disparos y sirviendo como característica eficiente para modelos de texto a voz.

Henry Li Xinyuan, Zexin Cai, Lin Zhang, Leibny Paola García-Perera, Berrak Sisman, Sanjeev Khudanpur, Nicholas Andrews, Matthew WiesnerWed, 11 Ma⚡ eess

Gender Fairness in Audio Deepfake Detection: Performance and Disparity Analysis

Este artículo analiza la equidad de género en los modelos de detección de deepfakes de audio, demostrando mediante el uso de métricas de equidad específicas que, a pesar de un rendimiento general bajo, existen disparidades ocultas en la distribución de errores entre géneros que las métricas tradicionales no capturan.

Aishwarya Fursule, Shruti Kshirsagar, Anderson R. AvilaWed, 11 Ma🤖 cs.AI

Trade-offs Between Capacity and Robustness in Neural Audio Codecs for Adversarially Robust Speech Recognition

Este artículo demuestra que existe una relación no monótona entre la profundidad de la cuantización vectorial residual en los códecs de audio neuronales y la robustez adversarial, donde configuraciones intermedias logran el mejor equilibrio al suprimir el ruido adversarial sin degradar el contenido del habla, superando así a las defensas de compresión tradicionales.

Jordan Prescott, Thanathai Lertpetchpun, Shrikanth NarayananWed, 11 Ma⚡ eess

The Costs of Reproducibility in Music Separation Research: a Replication of Band-Split RNN

Este estudio replica el modelo BSRNN para separación de fuentes musicales, revelando que la falta de código original obstaculiza la reproducibilidad y demostrando que, mediante experimentos adicionales, es posible superar el rendimiento original mientras se promueve la transparencia y la sostenibilidad en la investigación.

Paul Magron, Romain Serizel, Constance DouwesWed, 11 Ma🤖 cs.LG

How Contrastive Decoding Enhances Large Audio Language Models?

Este estudio evalúa sistemáticamente cuatro estrategias de Decodificación Contrastiva en Modelos de Lenguaje Audio Grandes, identificando que aunque la Decodificación Consciente del Audio y la Decodificación Contrastiva de Audio son las más efectivas, su éxito depende de la arquitectura del modelo y se limita a corregir errores de ausencia de audio o conjeturas inciertas, sin poder subsanar razonamientos defectuosos o afirmaciones erróneas confiables.

Tzu-Quan Lin, Wei-Ping Huang, Yi-Cheng Lin, Hung-yi LeeWed, 11 Ma💬 cs.CL

Paralinguistic Emotion-Aware Validation Timing Detection in Japanese Empathetic Spoken Dialogue

Este estudio propone un modelo que detecta el momento óptimo para la validación emocional en diálogos hablados japoneses utilizando únicamente señales paralingüísticas y emocionales, sin depender del contexto textual, logrando así mejorar la interacción humano-robot empática.

Zi Haur Pang, Yahui Fu, Yuan Gao, Tatsuya KawaharaWed, 11 Ma💻 cs