Reconstruct! Don't Encode: Self-Supervised Representation Reconstruction Loss for High-Intelligibility and Low-Latency Streaming Neural Audio Codec

El artículo presenta JHCodec, un códec de audio neuronal que utiliza una pérdida de reconstrucción de representaciones auto-supervisadas (SSRR) para lograr una inteligibilidad superior y una latencia mínima en streaming, acelerando el entrenamiento y permitiendo una arquitectura de cero anticipación sin sacrificar la calidad.

Junhyeok Lee, Xiluo He, Jihwan Lee, Helin Wang, Shrikanth Narayanan, Thomas Thebaud, Laureano Moro-Velazquez, Jesús Villalba, Najim DehakMon, 09 Ma🤖 cs.AI

Continual Adaptation for Pacific Indigenous Speech Recognition

Este estudio empírico demuestra que, aunque técnicas como LoRA permiten la adaptación inicial de modelos de reconocimiento de voz a lenguas indígenas del Pacífico, estas estrategias enfrentan un grave olvido catastrófico y una deriva representacional durante el aprendizaje continuo, lo que subraya la necesidad urgente de desarrollar métodos de adaptación más robustos para estas lenguas de recursos limitados.

Yang Xiao, Aso Mahmudi, Nick Thieberger, Eliathamby Ambikairajah, Eun-Jung Holden, Ting DangMon, 09 Ma💬 cs.CL

Cross-linguistic Prosodic Analysis of Autistic and Non-autistic Child Speech in Finnish, French and Slovak

Este estudio analiza un corpus multilingüe de habla infantil en finés, francés y eslovaco para demostrar que las diferencias prosódicas en el autismo incluyen marcadores acústicos más allá del tono, como la variabilidad de intensidad y la calidad vocal, lo que sugiere un perfil prosódico distintivo y complejo en lugar de una mera deficiencia.

Ida-Lotta Myllylä, Sofoklis KakourosMon, 09 Ma⚡ eess

Doctor or Patient? Synergizing Diarization and ASR for Code-Switched Hinglish Medical Conditions Extraction

Este artículo presenta un sistema robusto y de código abierto que combina diarización neuronal y reconocimiento de voz adaptado para extraer condiciones médicas de diálogos clínicos en hinglish con solapamiento de habla, logrando el primer lugar en el desafío DISPLACE-M.

Séverin Baroudi, Yanis Labrak, Shashi Kumar, Joonas Kalda, Sergio Burdisso, Pawel Cyrta, Juan Ignacio Alvarez-Trejos, Petr Motlicek, Hervé Bredin, Ricard MarxerMon, 09 Ma⚡ eess

Community-Informed AI Models for Police Accountability

Este artículo propone un enfoque de inteligencia artificial informado por la comunidad para desarrollar herramientas que analicen el video de cámaras corporales policiales, integrando las perspectivas de diversos grupos de interés mediante equipos multidisciplinarios para mejorar la rendición de cuentas y la legitimidad democrática en el gobierno.

Benjamin A. T. Grahama, Lauren Brown, Georgios Chochlakis, Morteza Dehghani, Raquel Delerme, Brittany Friedman, Ellie Graeden, Preni Golazizian, Rajat Hebbar, Parsa Hejabi, Aditya Kommineni, Mayagüez Salinas, Michael Sierra-Arévalo, Jackson Trager, Nicholas Weller, Shrikanth NarayananFri, 13 Ma⚡ eess

Text-only adaptation in LLM-based ASR through text denoising

Este artículo presenta un método ligero de adaptación solo con texto para sistemas de reconocimiento automático de habla basados en modelos de lenguaje grande, que formula el proceso como una tarea de eliminación de ruido para adaptar el modelo a nuevos dominios sin alterar la alineación entre modalidades.

Andrés Carofilis, Sergio Burdisso, Esaú Villatoro-Tello, Shashi Kumar, Kadri Hacioglu, Srikanth Madikeri, Pradeep Rangappa, Manjunath K E, Petr Motlicek, Shankar Venkatesan, Andreas StolckeFri, 13 Ma⚡ eess

V2A-DPO: Omni-Preference Optimization for Video-to-Audio Generation

El artículo presenta V2A-DPO, un marco de optimización directa de preferencias diseñado para modelos de generación de audio a partir de video basados en flujo, que integra un sistema de puntuación alineado con preferencias humanas, una tubería automatizada para datos de preferencia y una estrategia de aprendizaje curricular, logrando un rendimiento superior al estado del arte en el conjunto de datos VGGSound.

Nolan Chan, Timmy Gang, Yongqian Wang, Yuzhe Liang, Dingdong WangFri, 13 Ma⚡ eess

Can LLMs Help Localize Fake Words in Partially Fake Speech?

El estudio investiga si un modelo de lenguaje entrenado en texto puede localizar palabras falsas en audio manipulado mediante predicción de tokens, descubriendo que, aunque efectivo en escenarios específicos al detectar patrones de edición aprendidos, el modelo tiene dificultades para generalizar a estilos de edición no vistos debido a su dependencia excesiva de esos patrones particulares.

Lin Zhang, Thomas Thebaud, Zexin Cai, Sanjeev Khudanpur, Daniel Povey, Leibny Paola García-Perera, Matthew Wiesner, Nicholas AndrewsFri, 13 Ma⚡ eess

Cough activity detection for automatic tuberculosis screening

Este artículo presenta un sistema de detección de actividad de tos basado en el modelo preentrenado XLS-R que logra una alta precisión en la identificación de segmentos de tos para el cribado automático de tuberculosis, superando a otros modelos y demostrando viabilidad para su implementación en dispositivos móviles.

Joshua Jansen van Vüren, Devendra Singh Parihar, Daphne Naidoo, Kimsey Zajac, Willy Ssengooba, Grant Theron, Thomas NieslerFri, 13 Ma⚡ eess

Self-Speculative Decoding for LLM-based ASR with CTC Encoder Drafts

El artículo propone una técnica de auto-especulación que utiliza un codificador CTC como modelo borrador para acelerar la inferencia de modelos de lenguaje grandes en reconocimiento automático de voz, logrando simultáneamente una reducción en la tasa de error de palabras y una mejora significativa en la velocidad de decodificación.

George Saon, Samuel Thomas, Takashi Fukuda, Tohru Nagano, Avihu Dekel, Luis LastrasFri, 13 Ma⚡ eess

Continued Pretraining for Low-Resource Swahili ASR: Achieving State-of-the-Art Performance with Minimal Labeled Data

Este artículo presenta un enfoque de preentrenamiento continuo que combina datos no etiquetados con un conjunto limitado de datos etiquetados para adaptar el modelo wav2vec2-bert-2.0 al reconocimiento automático de voz en swahili, logrando un rendimiento de vanguardia con una reducción del 82% en la tasa de error de palabras en comparación con la línea base y superando significativamente a los sistemas académicos anteriores.

Hillary Mutisya, John MuganeFri, 13 Ma⚡ eess

AnimeScore: A Preference-Based Dataset and Framework for Evaluating Anime-Like Speech Style

El artículo presenta AnimeScore, un marco de evaluación basado en preferencias que supera las limitaciones de las métricas subjetivas tradicionales para medir el estilo de voz "tipo anime", demostrando que los modelos de aprendizaje automático logran una precisión superior al 90% al identificar que este estilo depende de la resonancia controlada y la continuidad prosódica en lugar de simplemente de un tono alto.

Joonyong Park, Jerry LiFri, 13 Ma⚡ eess