eess.AS artículos | Gist.Science

Textless and Non-Parallel Speech-to-Speech Emotion Style Transfer

Este artículo presenta S2S-ZEST, un marco de transferencia de estilo emocional voz-a-voz sin texto y no paralelo que logra imitar la emoción de una referencia preservando el contenido y la identidad del hablante de la fuente mediante un pipeline de análisis-síntesis basado en tokens semánticos y embeddings de emoción.

Soumya Dutta, Avni Jain, Sriram GanapathyWed, 11 Ma⚡ eess

Fast-Converging Distributed Signal Estimation in Topology-Unconstrained Wireless Acoustic Sensor Networks

Este artículo presenta TI-DANSE+, un algoritmo mejorado de estimación de señales distribuida en redes de sensores acústicos inalámbricos que acelera la convergencia al utilizar sumas parciales de señales de los vecinos y una estrategia de poda de árboles, logrando un rendimiento superior en velocidad y eficiencia de ancho de banda en comparación con los métodos DANSE y TI-DANSE existentes.

Paul Didier, Toon van Waterschoot, Simon Doclo, Jörg Bitzer, Marc MoonenWed, 11 Ma⚡ eess

Human-CLAP: Human-perception-based contrastive language-audio pretraining

El artículo presenta Human-CLAP, un modelo de entrenamiento contrastivo lenguaje-audio basado en la percepción humana que, al entrenarse con puntuaciones de evaluación subjetiva, mejora significativamente la correlación entre las métricas automáticas y la evaluación humana en comparación con el CLAP convencional.

Taisei Takano, Yuki Okamoto, Yusuke Kanamori, Yuki Saito, Ryotaro Nagase, Hiroshi SaruwatariWed, 11 Ma⚡ eess

Benchmarking Humans and Machines on Complex Multilingual Speech Understanding Tasks

Este estudio presenta un paradigma sistemático para comparar a humanos y máquinas en tareas de comprensión del habla multilingüe, revelando que, aunque los modelos de lenguaje basados en audio igualan o superan el rendimiento humano en condiciones limpias, los humanos muestran una ventaja significativa en la atención selectiva a hablantes en entornos ruidosos, especialmente en su lengua materna.

Sai Samrat Kankanala, Ram Chandra, Sriram GanapathyWed, 11 Ma⚡ eess

Evaluating pretrained speech embedding systems for dysarthria detection across heterogenous datasets

Este estudio evalúa exhaustivamente 17 sistemas de incrustación de voz preentrenados en seis conjuntos de datos heterogéneos para la detección de disartria, revelando una variabilidad significativa en los resultados dentro de cada conjunto y una menor generalización entre conjuntos, lo que cuestiona la validez clínica de los modelos entrenados y probados en los mismos datos.

Lovisa Wihlborg, Jemima Goodall, David Wheatley, Jacob J. Webber, Johnny Tam, Christine Weaver, Suvankar Pal, Siddharthan Chandran, Sohan Seth, Oliver Watts, Cassia Valentini-BotinhaoWed, 11 Ma⚡ eess

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

El artículo presenta VSSFlow, un marco unificado basado en flujo-matching que integra la generación de sonido y habla condicionada por video mediante un mecanismo de agregación de condiciones disociado, demostrando que el aprendizaje conjunto supera a los modelos especializados sin degradar el rendimiento.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

VoiceBridge: General Speech Restoration with One-step Latent Bridge Models

El artículo presenta VoiceBridge, un modelo de puente latente de un solo paso que utiliza un autoencoder variacional que preserva la energía y un prior neuronal conjunto para restaurar de manera eficiente y general el habla de alta calidad a partir de diversas distorsiones sin necesidad de destilación.

Chi Zhang, Kaiwen Zheng, Zehua Chen, Jun ZhuWed, 11 Ma🤖 cs.AI

Latent Speech-Text Transformer

El artículo presenta el Transformer de Voz-Texto Latente (LST), un modelo que agrupa los tokens de voz en parches latentes para equilibrar la granularidad con el texto y mejorar la eficiencia computacional, logrando así un rendimiento superior tanto en tareas de voz como de texto en comparación con los modelos autoregresivos tradicionales.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc LeWed, 11 Ma🤖 cs.AI

Noise-Conditioned Mixture-of-Experts Framework for Robust Speaker Verification

Este artículo presenta un marco de mezcla de expertos condicionado por el ruido que mejora la verificación de hablantes en entornos ruidosos mediante el descomposición del espacio de características en subespacios especializados, un mecanismo de enrutamiento inteligente y un protocolo de aprendizaje curricular.

Bin Gu, Haitao Zhao, Jibo WeiWed, 11 Ma⚡ eess

Modeling strategies for speech enhancement in the latent space of a neural audio codec

Este trabajo compara estrategias de mejora de voz en el espacio latente de códecs de audio neuronales, revelando que la predicción de representaciones continuas y el ajuste fino del codificador logran los mejores resultados, aunque los modelos no autoregresivos ofrecen un equilibrio más atractivo entre calidad, inteligibilidad y eficiencia.

Sofiene Kammoun, Xavier Alameda-Pineda, Simon LeglaiveWed, 11 Ma⚡ eess

WhisperVC: Decoupled Cross-Domain Alignment and Speech Generation for Low-Resource Whisper-to-Normal Conversion

El artículo presenta WhisperVC, un marco de tres etapas que descompone la alineación entre dominios y la generación de voz para convertir eficazmente el habla susurrada en habla normal con pocos recursos, logrando alta calidad y similitud de voz mientras ofrece aplicaciones en privacidad y rehabilitación.

Dong Liu, Juan Liu, Wei Ju, Yao Tian, Ming LiWed, 11 Ma⚡ eess

Multiplexing Neural Audio Watermarks

Este artículo presenta un paradigma de multiplexación de marcas de agua neuronales en audio, que combina técnicas paralelas y secuenciales mediante enfoques como PA-TFM y el modelo MaskNet, logrando una protección robusta contra ataques sofisticados y superando significativamente a los métodos de marca única existentes.

Zheqi Yuan, Yucheng Huang, Guangzhi Sun, Zengrui Jin, Chao ZhangWed, 11 Ma⚡ eess

Head, posture, and full-body gestures in unscripted dyadic conversations in noise

Este estudio demuestra que, en conversaciones cara a cara ruidosas, los hablantes aumentan la complejidad de sus gestos y el volumen de voz, mientras que los oyentes intensifican sus señales de retroalimentación y ajustan sus movimientos corporales para mantener la comunicación, aunque la sincronía entre el habla y los gestos disminuye ligeramente en niveles de ruido moderado.

Luboš Hládek, Bernhard U. SeeberWed, 11 Ma⚡ eess

Rethinking Discrete Speech Representation Tokens for Accent Generation

Este artículo presenta la primera investigación sistemática sobre cómo se codifica la información de acento en los tokens de representación de voz discreta (DSRT), proponiendo un marco de evaluación unificado que revela que la selección de capas es el factor más determinante para retener dicha información, mientras que la supervisión ASR la reduce significativamente y la reducción ingenua del tamaño del código no logra desvincular el acento de la fonética y el hablante.

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter BellWed, 11 Ma⚡ eess

Bottleneck Transformer-Based Approach for Improved Automatic STOI Score Prediction

Este estudio presenta un enfoque novedoso basado en transformadores de cuello de botella que mejora la predicción automática de la métrica STOI al lograr una mayor correlación y menor error cuadrático medio en comparación con los modelos actuales, sin depender de una referencia de habla limpia.

Amartyaveer, Murali Kadambi, Chandra Mohan Sharma, Anupam Mondal, Prasanta Kumar GhoshWed, 11 Ma🤖 cs.LG

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

El artículo presenta VoxEmo, un benchmark integral para la evaluación de modelos de lenguaje de voz en el reconocimiento de emociones, que aborda desafíos como la variabilidad de los prompts y la ambigüedad humana mediante un conjunto de datos multilingüe, un protocolo de etiquetas suaves y estrategias de consenso para alinear mejor los resultados generativos con la percepción subjetiva humana.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

Can You Hear, Localize, and Segment Continually? An Exemplar-Free Continual Learning Benchmark for Audio-Visual Segmentation

Este artículo presenta el primer benchmark de aprendizaje continuo sin ejemplos para la segmentación audio-visual, junto con el modelo ATLAS que utiliza condicionamiento guiado por audio y anclaje de bajo rango para mitigar el olvido catastrófico en entornos dinámicos.

Siddeshwar Raghavan, Gautham Vinod, Bruce Coburn, Fengqing ZhuWed, 11 Ma⚡ eess

Universal Speech Content Factorization

El artículo presenta la Factorización Universal de Contenido de Voz (USCF), un método lineal e invertible que extrae representaciones de bajo rango preservando el contenido fonético mientras suprime el timbre del hablante, permitiendo la conversión de voz en ceros disparos y sirviendo como característica eficiente para modelos de texto a voz.

Henry Li Xinyuan, Zexin Cai, Lin Zhang, Leibny Paola García-Perera, Berrak Sisman, Sanjeev Khudanpur, Nicholas Andrews, Matthew WiesnerWed, 11 Ma⚡ eess

Trade-offs Between Capacity and Robustness in Neural Audio Codecs for Adversarially Robust Speech Recognition

Este artículo demuestra que existe una relación no monótona entre la profundidad de la cuantización vectorial residual en los códecs de audio neuronales y la robustez adversarial, donde configuraciones intermedias logran el mejor equilibrio al suprimir el ruido adversarial sin degradar el contenido del habla, superando así a las defensas de compresión tradicionales.

Jordan Prescott, Thanathai Lertpetchpun, Shrikanth NarayananWed, 11 Ma⚡ eess

Emotion-Aware Prefix: Towards Explicit Emotion Control in Voice Conversion Models

Los autores proponen el "Emotion-Aware Prefix", un método que mejora significativamente el control explícito de emociones en la conversión de voz al duplicar la precisión de conversión emocional hasta un 85,50% sin comprometer la identidad del hablante ni la calidad del habla.

Haoyuan Yang, Mu Yang, Jiamin Xie, Szu-Jui Chen, John H. L. HansenWed, 11 Ma⚡ eess