Text-only adaptation in LLM-based ASR through text denoising

Este artículo presenta un método ligero de adaptación solo con texto para sistemas de reconocimiento automático de habla basados en modelos de lenguaje grande, que formula el proceso como una tarea de eliminación de ruido para adaptar el modelo a nuevos dominios sin alterar la alineación entre modalidades.

Andrés Carofilis, Sergio Burdisso, Esaú Villatoro-Tello, Shashi Kumar, Kadri Hacioglu, Srikanth Madikeri, Pradeep Rangappa, Manjunath K E, Petr Motlicek, Shankar Venkatesan, Andreas StolckeFri, 13 Ma⚡ eess

Evaluating Zero-Shot and One-Shot Adaptation of Small Language Models in Leader-Follower Interaction

Este artículo presenta una evaluación de modelos de lenguaje pequeños (SLM) para la clasificación de roles en interacciones líder-seguidor, demostrando que el ajuste fino en modo cero disparos logra un alto rendimiento y baja latencia, aunque enfrenta limitaciones en modos de un disparo debido a la complejidad del contexto.

Rafael R. Baptista, André de Lima Salgado, Ricardo V. Godoy, Marcelo Becker, Thiago Boaventura, Gustavo J. G. LahrFri, 13 Ma⚡ eess

Scalable and Convergent Generalized Power Iteration Precoding for Massive MIMO Systems

Este artículo presenta un marco de precodificación escalable y convergente basado en iteración de potencia generalizada (GPIP) para sistemas MIMO masivos, que reduce la complejidad computacional al reformular el problema de formación de haces en un espacio de baja dimensión dependiente del número de usuarios y garantiza la robustez ante información imperfecta del canal mediante aproximaciones de rango bajo.

Seunghyeong Yoo, Mintaek Oh, Jeonghun Park, Namyoon Lee, Jinseok ChoiFri, 13 Ma⚡ eess

Wide-Area GNSS Spoofing and Jamming Detection Using AIS-Derived Spatiotemporal Integrity Monitoring

Este artículo presenta un marco de tres etapas basado en datos AIS que, tras filtrar defectos de comunicación, utiliza análisis de consistencia cinemática y agrupación espaciotemporal para detectar eficazmente el spoofing y el jamming del GNSS en aguas costeras, logrando una reducción del 98,6% en falsas alarmas sin necesidad de sensores dedicados.

Sanghyeon Park, DeukJae Cho, Pyo-Woong SonFri, 13 Ma⚡ eess

DRAFTO: Decoupled Reduced-space and Adaptive Feasibility-repair Trajectory Optimization for Robotic Manipulators

Este artículo presenta DRAFTO, un nuevo algoritmo de optimización de trayectorias para manipuladores robóticos que combina un descenso de Gauss-Newton en espacio reducido con una reparación adaptativa de factibilidad mediante programación cuadrática, logrando así una alta eficiencia y fiabilidad en diversas tareas de manipulación compleja.

Yichang Feng, Xiao Liang, Minghui ZhengFri, 13 Ma⚡ eess

TATIC: Task-Aware Temporal Learning for Human Intent Inference from Physical Corrections in Human-Robot Collaboration

Este trabajo presenta TATIC, un marco unificado que infiere la intención semántica de tareas y ajusta parámetros de movimiento en la colaboración humano-robot mediante correcciones físicas breves, utilizando estimación de fuerzas y una red neuronal temporal consciente de la tarea para lograr una adaptación robusta y generalizable.

Jiurun Song, Xiao Liang, Minghui ZhengFri, 13 Ma⚡ eess

V2A-DPO: Omni-Preference Optimization for Video-to-Audio Generation

El artículo presenta V2A-DPO, un marco de optimización directa de preferencias diseñado para modelos de generación de audio a partir de video basados en flujo, que integra un sistema de puntuación alineado con preferencias humanas, una tubería automatizada para datos de preferencia y una estrategia de aprendizaje curricular, logrando un rendimiento superior al estado del arte en el conjunto de datos VGGSound.

Nolan Chan, Timmy Gang, Yongqian Wang, Yuzhe Liang, Dingdong WangFri, 13 Ma⚡ eess

Metaheuristic algorithm parameters selection for building an optimal hierarchical structure of a control system: a case study

Este artículo examina el impacto de la selección de parámetros en la convergencia de un algoritmo modificado de colonia de hormigas para optimizar la arquitectura jerárquica de un sistema de control industrial distribuido y ofrece recomendaciones para su ajuste con el fin de lograr resultados óptimos en problemas de optimización combinatoria.

Ruslan ZakirzyanovFri, 13 Ma⚡ eess

Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition

Este artículo propone un marco basado en Transformers para el reconocimiento de emociones audio-visuales que aborda la desincronización temporal entre modalidades mediante un codificador de autoatención multimodal, embebimientos posicionales rotatorios alineados temporalmente (TaRoPE) y una función de pérdida de coincidencia cruzada temporal (CTM), logrando mejoras consistentes en los conjuntos de datos CREMA-D y RAVDESS.

Inyong Koo, yeeun Seong, Minseok Son, Jaehyuk Jang, Changick KimFri, 13 Ma⚡ eess

Can LLMs Help Localize Fake Words in Partially Fake Speech?

El estudio investiga si un modelo de lenguaje entrenado en texto puede localizar palabras falsas en audio manipulado mediante predicción de tokens, descubriendo que, aunque efectivo en escenarios específicos al detectar patrones de edición aprendidos, el modelo tiene dificultades para generalizar a estilos de edición no vistos debido a su dependencia excesiva de esos patrones particulares.

Lin Zhang, Thomas Thebaud, Zexin Cai, Sanjeev Khudanpur, Daniel Povey, Leibny Paola García-Perera, Matthew Wiesner, Nicholas AndrewsFri, 13 Ma⚡ eess

Cough activity detection for automatic tuberculosis screening

Este artículo presenta un sistema de detección de actividad de tos basado en el modelo preentrenado XLS-R que logra una alta precisión en la identificación de segmentos de tos para el cribado automático de tuberculosis, superando a otros modelos y demostrando viabilidad para su implementación en dispositivos móviles.

Joshua Jansen van Vüren, Devendra Singh Parihar, Daphne Naidoo, Kimsey Zajac, Willy Ssengooba, Grant Theron, Thomas NieslerFri, 13 Ma⚡ eess

Self-Speculative Decoding for LLM-based ASR with CTC Encoder Drafts

El artículo propone una técnica de auto-especulación que utiliza un codificador CTC como modelo borrador para acelerar la inferencia de modelos de lenguaje grandes en reconocimiento automático de voz, logrando simultáneamente una reducción en la tasa de error de palabras y una mejora significativa en la velocidad de decodificación.

George Saon, Samuel Thomas, Takashi Fukuda, Tohru Nagano, Avihu Dekel, Luis LastrasFri, 13 Ma⚡ eess

Conduction-Diffusion in N-Dimensional settings as irreversible port-Hamiltonian systems

Este trabajo extiende las formulaciones de sistemas port-Hamiltonianos irreversibles (IPHS) unidimensionales a sistemas de parámetros distribuidos controlados por frontera en N dimensiones, estableciendo un marco termodinámico unificado que modela coherentemente los fenómenos de conducción-difusión, preserva el balance energético global y garantiza una caracterización correcta de la producción de entropía.

Luis Mora, Yann Le Gorrec, Hector Ramirez, Denis MatignonFri, 13 Ma⚡ eess

Performance Bounds and Robust Filtering for LEO Inter-Satellite Synchronization under Cross-Epoch Doppler Coupling

Este artículo establece que el acoplamiento Doppler entre épocas es esencial para evitar la incertidumbre ilimitada de la fase en enlaces entre satélites LEO, derivando un límite inferior de Cramér-Rao posterior y proponiendo un filtro robusto híbrido que supera significativamente a los métodos estándar en presencia de ruido de oscilador y errores de medición.

Haofan Dong, Houtianfu Wang, Hanlin Cai, Ozgur B. AkanFri, 13 Ma⚡ eess

Distributed Kalman--Consensus Filtering with Adaptive Uncertainty Weighting for Multi-Object Tracking in Mobile Robot Networks

Este artículo presenta una implementación y evaluación de un filtro de consenso de Kalman distribuido con ponderación adaptativa de incertidumbre para el seguimiento de múltiples objetos en redes de robots móviles, demostrando mediante simulaciones que este mecanismo mejora la precisión de la estimación al proteger las mediciones locales de datos inconsistentes derivados de la deriva en la localización.

Niusha Khosravi, Rodrigo Ventura, Meysam BasiriFri, 13 Ma⚡ eess

Hybrid eTFCE-GRF: Exact Cluster-Size Retrieval with Analytical p-Values for Voxel-Based Morphometry

Este artículo presenta el método híbrido eTFCE-GRF, que combina la estructura union-find de eTFCE para recuperar tamaños de clúster exactos con la inferencia analítica de campos aleatorios gaussianos (GRF) de pTFCE, logrando así un control preciso del error familiar y una aceleración masiva (hasta 1000 veces) en comparación con las pruebas de permutación tradicionales para la morfometría basada en voxel.

Don Yin, Hao Chen, Takeshi Miki, Boxing Liu, Enyu YangFri, 13 Ma⚡ eess