eess.AS artículos | Gist.Science

ImKWS: Test-Time Adaptation for Keyword Spotting with Class Imbalance

El artículo presenta ImKWS, un método de adaptación en tiempo de prueba para la detección de palabras clave que resuelve el desequilibrio de clases entre palabras raras y ruido de fondo mediante una estrategia de entropía dividida en ramas de recompensa y penalización junto con consistencia en transformaciones de audio.

Hanyu Ding, Yang Xiao, Jiaheng Dong, Ting DangMon, 09 Ma⚡ eess

Reconstruct! Don't Encode: Self-Supervised Representation Reconstruction Loss for High-Intelligibility and Low-Latency Streaming Neural Audio Codec

El artículo presenta JHCodec, un códec de audio neuronal que utiliza una pérdida de reconstrucción de representaciones auto-supervisadas (SSRR) para lograr una inteligibilidad superior y una latencia mínima en streaming, acelerando el entrenamiento y permitiendo una arquitectura de cero anticipación sin sacrificar la calidad.

Junhyeok Lee, Xiluo He, Jihwan Lee, Helin Wang, Shrikanth Narayanan, Thomas Thebaud, Laureano Moro-Velazquez, Jesús Villalba, Najim DehakMon, 09 Ma🤖 cs.AI

Activation Steering for Accent-Neutralized Zero-Shot Text-To-Speech

Este estudio presenta un método post-hoc y sin entrenamiento que utiliza el direccionamiento de activaciones durante la inferencia para neutralizar el acento en modelos de texto a voz de cero disparos, preservando al mismo tiempo la timbre original del hablante.

Mu Yang, John H. L. HansenMon, 09 Ma⚡ eess

StreamVoiceAnon+: Emotion-Preserving Streaming Speaker Anonymization via Frame-Level Acoustic Distillation

El artículo presenta StreamVoiceAnon+, un método de anonimización de hablantes en tiempo real que preserva la emoción mediante microajuste supervisado y destilación emocional a nivel de cuadro, logrando una mejora significativa en la retención de emociones sin añadir latencia ni comprometer la privacidad.

Nikita Kuzmin, Kong Aik Lee, Eng Siong ChngMon, 09 Ma🤖 cs.AI

Whisper-CD: Accurate Long-Form Speech Recognition using Multi-Negative Contrastive Decoding

El artículo presenta Whisper-CD, un marco de decodificación contrastiva sin entrenamiento que reduce las alucinaciones y mejora la velocidad en la transcripción de audio largo al comparar las probabilidades del modelo frente a perturbaciones acústicas negativas durante la inferencia.

Hoseong Ahn, Jeongyun Chae, Yoonji Park, Kyuhong ShimMon, 09 Ma🤖 cs.AI

Continual Adaptation for Pacific Indigenous Speech Recognition

Este estudio empírico demuestra que, aunque técnicas como LoRA permiten la adaptación inicial de modelos de reconocimiento de voz a lenguas indígenas del Pacífico, estas estrategias enfrentan un grave olvido catastrófico y una deriva representacional durante el aprendizaje continuo, lo que subraya la necesidad urgente de desarrollar métodos de adaptación más robustos para estas lenguas de recursos limitados.

Yang Xiao, Aso Mahmudi, Nick Thieberger, Eliathamby Ambikairajah, Eun-Jung Holden, Ting DangMon, 09 Ma💬 cs.CL

Classification of Autistic and Non-Autistic Children's Speech: A Cross-Linguistic Study in Finnish, French, and Slovak

Este estudio presenta un análisis transversal de la clasificación del habla de niños autistas y no autistas en finlandés, francés y eslovaco, revelando que, aunque existen marcadores acústicos compartidos, el rendimiento de los modelos varía significativamente entre idiomas y requiere enfoques adaptados a cada lengua.

Sofoklis Kakouros, Ida-Lotta MyllyläMon, 09 Ma⚡ eess

Cross-linguistic Prosodic Analysis of Autistic and Non-autistic Child Speech in Finnish, French and Slovak

Este estudio analiza un corpus multilingüe de habla infantil en finés, francés y eslovaco para demostrar que las diferencias prosódicas en el autismo incluyen marcadores acústicos más allá del tono, como la variabilidad de intensidad y la calidad vocal, lo que sugiere un perfil prosódico distintivo y complejo en lugar de una mera deficiencia.

Ida-Lotta Myllylä, Sofoklis KakourosMon, 09 Ma⚡ eess

Doctor or Patient? Synergizing Diarization and ASR for Code-Switched Hinglish Medical Conditions Extraction

Este artículo presenta un sistema robusto y de código abierto que combina diarización neuronal y reconocimiento de voz adaptado para extraer condiciones médicas de diálogos clínicos en hinglish con solapamiento de habla, logrando el primer lugar en el desafío DISPLACE-M.

Séverin Baroudi, Yanis Labrak, Shashi Kumar, Joonas Kalda, Sergio Burdisso, Pawel Cyrta, Juan Ignacio Alvarez-Trejos, Petr Motlicek, Hervé Bredin, Ricard MarxerMon, 09 Ma⚡ eess

Community-Informed AI Models for Police Accountability

Este artículo propone un enfoque de inteligencia artificial informado por la comunidad para desarrollar herramientas que analicen el video de cámaras corporales policiales, integrando las perspectivas de diversos grupos de interés mediante equipos multidisciplinarios para mejorar la rendición de cuentas y la legitimidad democrática en el gobierno.

Benjamin A. T. Grahama, Lauren Brown, Georgios Chochlakis, Morteza Dehghani, Raquel Delerme, Brittany Friedman, Ellie Graeden, Preni Golazizian, Rajat Hebbar, Parsa Hejabi, Aditya Kommineni, Mayagüez Salinas, Michael Sierra-Arévalo, Jackson Trager, Nicholas Weller, Shrikanth NarayananFri, 13 Ma⚡ eess

Audio-Language Models for Audio-Centric Tasks: A Systematic Survey

Este artículo presenta la primera revisión sistemática de los modelos de audio-idioma, ofreciendo una cobertura exhaustiva, una taxonomía unificada y un panorama de investigación que analiza sus fundamentos, limitaciones y direcciones futuras para el procesamiento de contenido multimodal centrado en el audio.

Yi Su, Jisheng Bai, Qisheng Xu, Kele Xu, Yong DouFri, 13 Ma⚡ eess

Text-only adaptation in LLM-based ASR through text denoising

Este artículo presenta un método ligero de adaptación solo con texto para sistemas de reconocimiento automático de habla basados en modelos de lenguaje grande, que formula el proceso como una tarea de eliminación de ruido para adaptar el modelo a nuevos dominios sin alterar la alineación entre modalidades.

Andrés Carofilis, Sergio Burdisso, Esaú Villatoro-Tello, Shashi Kumar, Kadri Hacioglu, Srikanth Madikeri, Pradeep Rangappa, Manjunath K E, Petr Motlicek, Shankar Venkatesan, Andreas StolckeFri, 13 Ma⚡ eess

[b]=[d]-[t]+[p]: Self-supervised Speech Models Discover Phonological Vector Arithmetic

Este estudio demuestra que los modelos de habla auto-supervisados codifican información fonética mediante vectores composicionales interpretables que permiten realizar operaciones aritméticas lineales para representar y manipular rasgos fonológicos de forma continua en múltiples idiomas.

Kwanghee Choi, Eunjung Yeo, Cheol Jun Cho, David Harwath, David R. MortensenFri, 13 Ma⚡ eess

V2A-DPO: Omni-Preference Optimization for Video-to-Audio Generation

El artículo presenta V2A-DPO, un marco de optimización directa de preferencias diseñado para modelos de generación de audio a partir de video basados en flujo, que integra un sistema de puntuación alineado con preferencias humanas, una tubería automatizada para datos de preferencia y una estrategia de aprendizaje curricular, logrando un rendimiento superior al estado del arte en el conjunto de datos VGGSound.

Nolan Chan, Timmy Gang, Yongqian Wang, Yuzhe Liang, Dingdong WangFri, 13 Ma⚡ eess

Can LLMs Help Localize Fake Words in Partially Fake Speech?

El estudio investiga si un modelo de lenguaje entrenado en texto puede localizar palabras falsas en audio manipulado mediante predicción de tokens, descubriendo que, aunque efectivo en escenarios específicos al detectar patrones de edición aprendidos, el modelo tiene dificultades para generalizar a estilos de edición no vistos debido a su dependencia excesiva de esos patrones particulares.

Lin Zhang, Thomas Thebaud, Zexin Cai, Sanjeev Khudanpur, Daniel Povey, Leibny Paola García-Perera, Matthew Wiesner, Nicholas AndrewsFri, 13 Ma⚡ eess

Cough activity detection for automatic tuberculosis screening

Este artículo presenta un sistema de detección de actividad de tos basado en el modelo preentrenado XLS-R que logra una alta precisión en la identificación de segmentos de tos para el cribado automático de tuberculosis, superando a otros modelos y demostrando viabilidad para su implementación en dispositivos móviles.

Joshua Jansen van Vüren, Devendra Singh Parihar, Daphne Naidoo, Kimsey Zajac, Willy Ssengooba, Grant Theron, Thomas NieslerFri, 13 Ma⚡ eess

Self-Speculative Decoding for LLM-based ASR with CTC Encoder Drafts

El artículo propone una técnica de auto-especulación que utiliza un codificador CTC como modelo borrador para acelerar la inferencia de modelos de lenguaje grandes en reconocimiento automático de voz, logrando simultáneamente una reducción en la tasa de error de palabras y una mejora significativa en la velocidad de decodificación.

George Saon, Samuel Thomas, Takashi Fukuda, Tohru Nagano, Avihu Dekel, Luis LastrasFri, 13 Ma⚡ eess

Fair-Gate: Fairness-Aware Interpretable Risk Gating for Sex-Fair Voice Biometrics

El artículo presenta Fair-Gate, un marco interpretable de control de riesgo que aborda el aprendizaje de atajos demográficos y la entrelazación de características para mejorar la equidad de género en los sistemas biométricos de voz sin sacrificar la precisión.

Yangyang Qu, Todisco Massimiliano, Galdi Chiara, Evans NicholasFri, 13 Ma⚡ eess

Continued Pretraining for Low-Resource Swahili ASR: Achieving State-of-the-Art Performance with Minimal Labeled Data

Este artículo presenta un enfoque de preentrenamiento continuo que combina datos no etiquetados con un conjunto limitado de datos etiquetados para adaptar el modelo wav2vec2-bert-2.0 al reconocimiento automático de voz en swahili, logrando un rendimiento de vanguardia con una reducción del 82% en la tasa de error de palabras en comparación con la línea base y superando significativamente a los sistemas académicos anteriores.

Hillary Mutisya, John MuganeFri, 13 Ma⚡ eess

AnimeScore: A Preference-Based Dataset and Framework for Evaluating Anime-Like Speech Style

El artículo presenta AnimeScore, un marco de evaluación basado en preferencias que supera las limitaciones de las métricas subjetivas tradicionales para medir el estilo de voz "tipo anime", demostrando que los modelos de aprendizaje automático logran una precisión superior al 90% al identificar que este estilo depende de la resonancia controlada y la continuidad prosódica en lugar de simplemente de un tono alto.

Joonyong Park, Jerry LiFri, 13 Ma⚡ eess

← Anterior Siguiente →