Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition

Este artículo propone un marco basado en Transformers para el reconocimiento de emociones audio-visuales que aborda la desincronización temporal entre modalidades mediante un codificador de autoatención multimodal, embebimientos posicionales rotatorios alineados temporalmente (TaRoPE) y una función de pérdida de coincidencia cruzada temporal (CTM), logrando mejoras consistentes en los conjuntos de datos CREMA-D y RAVDESS.

Inyong Koo, yeeun Seong, Minseok Son, Jaehyuk Jang, Changick KimFri, 13 Ma⚡ eess

Resurfacing Paralinguistic Awareness in Large Audio Language Models

Este trabajo propone un protocolo de ajuste fino mejorado con paralingüística (PE-FT) que, mediante análisis de capas y componentes específicos, capacita a los Modelos de Lenguaje Audio Grandes (LALMs) para reconocer y responder a las señales paralingüísticas, superando así las estrategias de ajuste fino tradicionales centradas únicamente en el contenido.

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

El artículo presenta EasyAnimate, un marco de generación de video de alto rendimiento que utiliza atención híbrida en ventanas y retropropagación de recompensas para lograr una velocidad de inferencia superior y una calidad de video de vanguardia, superando a los modelos existentes en eficiencia y resultados evaluados por humanos.

Jiaqi Xu, Kunzhe Huang, Xinyi Zou + 5 more2026-03-06💻 cs

ExposureEngine: Oriented Logo Detection and Sponsor Visibility Analytics in Sports Broadcasts

Este artículo presenta ExposureEngine, un sistema integral que utiliza cajas delimitadoras orientadas y un agente de lenguaje natural para cuantificar con precisión la visibilidad de patrocinadores en transmisiones deportivas, superando las limitaciones de los métodos tradicionales mediante un nuevo conjunto de datos de fútbol sueco.

Mehdi Houshmand Sarkhoosh, Frøy Øye, Henrik Nestor Sørlie + 5 more2026-03-06💻 cs

When Denoising Becomes Unsigning: Theoretical and Empirical Analysis of Watermark Fragility Under Diffusion-Based Image Editing

Este artículo demuestra teórica y empíricamente que la edición de imágenes basada en difusión degrada o elimina sistemáticamente las marcas de agua invisibles robustas, al tratar los datos de la marca como ruido de alta frecuencia durante el proceso de denoising, lo que plantea nuevos desafíos para la trazabilidad del contenido generado.

Fai Gu, Qiyu Tang, Te Wen, Emily Davis, Finn Carter2026-03-06🔒 cs.CR

Crab+^{+}: A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

El modelo Crab+^{+} aborda el problema de la transferencia negativa en la comprensión unificada de escenas audio-visuales mediante un conjunto de datos de instrucción con razonamiento explícito y un mecanismo de LoRA interactivo que coordina dinámicamente las tareas heterogéneas, logrando así un rendimiento superior en la mayoría de las tareas en comparación con los enfoques de entrenamiento único.

Dongnuan Cai, Henghui Du, Chang Zhou + 5 more2026-03-05🤖 cs.AI