Fast-Converging Distributed Signal Estimation in Topology-Unconstrained Wireless Acoustic Sensor Networks

Este artículo presenta TI-DANSE+, un algoritmo mejorado de estimación de señales distribuida en redes de sensores acústicos inalámbricos que acelera la convergencia al utilizar sumas parciales de señales de los vecinos y una estrategia de poda de árboles, logrando un rendimiento superior en velocidad y eficiencia de ancho de banda en comparación con los métodos DANSE y TI-DANSE existentes.

Paul Didier, Toon van Waterschoot, Simon Doclo, Jörg Bitzer, Marc MoonenWed, 11 Ma⚡ eess

Human-CLAP: Human-perception-based contrastive language-audio pretraining

El artículo presenta Human-CLAP, un modelo de entrenamiento contrastivo lenguaje-audio basado en la percepción humana que, al entrenarse con puntuaciones de evaluación subjetiva, mejora significativamente la correlación entre las métricas automáticas y la evaluación humana en comparación con el CLAP convencional.

Taisei Takano, Yuki Okamoto, Yusuke Kanamori, Yuki Saito, Ryotaro Nagase, Hiroshi SaruwatariWed, 11 Ma⚡ eess

Benchmarking Humans and Machines on Complex Multilingual Speech Understanding Tasks

Este estudio presenta un paradigma sistemático para comparar a humanos y máquinas en tareas de comprensión del habla multilingüe, revelando que, aunque los modelos de lenguaje basados en audio igualan o superan el rendimiento humano en condiciones limpias, los humanos muestran una ventaja significativa en la atención selectiva a hablantes en entornos ruidosos, especialmente en su lengua materna.

Sai Samrat Kankanala, Ram Chandra, Sriram GanapathyWed, 11 Ma⚡ eess

Evaluating pretrained speech embedding systems for dysarthria detection across heterogenous datasets

Este estudio evalúa exhaustivamente 17 sistemas de incrustación de voz preentrenados en seis conjuntos de datos heterogéneos para la detección de disartria, revelando una variabilidad significativa en los resultados dentro de cada conjunto y una menor generalización entre conjuntos, lo que cuestiona la validez clínica de los modelos entrenados y probados en los mismos datos.

Lovisa Wihlborg, Jemima Goodall, David Wheatley, Jacob J. Webber, Johnny Tam, Christine Weaver, Suvankar Pal, Siddharthan Chandran, Sohan Seth, Oliver Watts, Cassia Valentini-BotinhaoWed, 11 Ma⚡ eess

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

El artículo presenta VSSFlow, un marco unificado basado en flujo-matching que integra la generación de sonido y habla condicionada por video mediante un mecanismo de agregación de condiciones disociado, demostrando que el aprendizaje conjunto supera a los modelos especializados sin degradar el rendimiento.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

Latent Speech-Text Transformer

El artículo presenta el Transformer de Voz-Texto Latente (LST), un modelo que agrupa los tokens de voz en parches latentes para equilibrar la granularidad con el texto y mejorar la eficiencia computacional, logrando así un rendimiento superior tanto en tareas de voz como de texto en comparación con los modelos autoregresivos tradicionales.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc LeWed, 11 Ma🤖 cs.AI

Modeling strategies for speech enhancement in the latent space of a neural audio codec

Este trabajo compara estrategias de mejora de voz en el espacio latente de códecs de audio neuronales, revelando que la predicción de representaciones continuas y el ajuste fino del codificador logran los mejores resultados, aunque los modelos no autoregresivos ofrecen un equilibrio más atractivo entre calidad, inteligibilidad y eficiencia.

Sofiene Kammoun, Xavier Alameda-Pineda, Simon LeglaiveWed, 11 Ma⚡ eess

Head, posture, and full-body gestures in unscripted dyadic conversations in noise

Este estudio demuestra que, en conversaciones cara a cara ruidosas, los hablantes aumentan la complejidad de sus gestos y el volumen de voz, mientras que los oyentes intensifican sus señales de retroalimentación y ajustan sus movimientos corporales para mantener la comunicación, aunque la sincronía entre el habla y los gestos disminuye ligeramente en niveles de ruido moderado.

Luboš Hládek, Bernhard U. SeeberWed, 11 Ma⚡ eess

Rethinking Discrete Speech Representation Tokens for Accent Generation

Este artículo presenta la primera investigación sistemática sobre cómo se codifica la información de acento en los tokens de representación de voz discreta (DSRT), proponiendo un marco de evaluación unificado que revela que la selección de capas es el factor más determinante para retener dicha información, mientras que la supervisión ASR la reduce significativamente y la reducción ingenua del tamaño del código no logra desvincular el acento de la fonética y el hablante.

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter BellWed, 11 Ma⚡ eess

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

El artículo presenta VoxEmo, un benchmark integral para la evaluación de modelos de lenguaje de voz en el reconocimiento de emociones, que aborda desafíos como la variabilidad de los prompts y la ambigüedad humana mediante un conjunto de datos multilingüe, un protocolo de etiquetas suaves y estrategias de consenso para alinear mejor los resultados generativos con la percepción subjetiva humana.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

Universal Speech Content Factorization

El artículo presenta la Factorización Universal de Contenido de Voz (USCF), un método lineal e invertible que extrae representaciones de bajo rango preservando el contenido fonético mientras suprime el timbre del hablante, permitiendo la conversión de voz en ceros disparos y sirviendo como característica eficiente para modelos de texto a voz.

Henry Li Xinyuan, Zexin Cai, Lin Zhang, Leibny Paola García-Perera, Berrak Sisman, Sanjeev Khudanpur, Nicholas Andrews, Matthew WiesnerWed, 11 Ma⚡ eess

Trade-offs Between Capacity and Robustness in Neural Audio Codecs for Adversarially Robust Speech Recognition

Este artículo demuestra que existe una relación no monótona entre la profundidad de la cuantización vectorial residual en los códecs de audio neuronales y la robustez adversarial, donde configuraciones intermedias logran el mejor equilibrio al suprimir el ruido adversarial sin degradar el contenido del habla, superando así a las defensas de compresión tradicionales.

Jordan Prescott, Thanathai Lertpetchpun, Shrikanth NarayananWed, 11 Ma⚡ eess