cs.MM artículos | Gist.Science

Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition

Este artículo propone un marco basado en Transformers para el reconocimiento de emociones audio-visuales que aborda la desincronización temporal entre modalidades mediante un codificador de autoatención multimodal, embebimientos posicionales rotatorios alineados temporalmente (TaRoPE) y una función de pérdida de coincidencia cruzada temporal (CTM), logrando mejoras consistentes en los conjuntos de datos CREMA-D y RAVDESS.

Inyong Koo, yeeun Seong, Minseok Son, Jaehyuk Jang, Changick KimFri, 13 Ma⚡ eess

Catalogue Grounded Multimodal Attribution for Museum Video under Resource and Regulatory Constraints

Este artículo propone un marco de atribución multimodal basado en catálogos y modelos de lenguaje de video locales para automatizar la curaduría de metadatos en archivos audiovisuales de museos, mejorando su descubribilidad mientras se respetan las limitaciones de recursos, la soberanía de datos y las normativas regulatorias.

Minsak Nanang, Adrian Hilton, Armin MustafaFri, 13 Ma🤖 cs.LG

Stage-Adaptive Reliability Modeling for Continuous Valence-Arousal Estimation

El artículo presenta SAGE, un marco de modelado de fiabilidad adaptativo a las etapas que mejora la estimación continua de valencia y excitación al calibrar dinámicamente la confianza de las modalidades auditivas y visuales según su informatividad en cada fase de interacción, logrando así un rendimiento superior en entornos ruidosos y variables.

Yubeen Lee, Sangeun Lee, Junyeop Cha, Eunil ParkFri, 13 Ma🤖 cs.AI

On the Possible Detectability of Image-in-Image Steganography

Este artículo demuestra que los esquemas de esteganografía de imagen en imagen son fácilmente detectables mediante un método basado en el análisis de componentes independientes y sus momentos estadísticos, alcanzando una precisión de hasta el 84,6% y superando significativamente a los métodos de esteganálisis clásicos.

Antoine Mallet (CRIStAL), Patrick Bas (CRIStAL)Fri, 13 Ma⚡ eess

Resurfacing Paralinguistic Awareness in Large Audio Language Models

Este trabajo propone un protocolo de ajuste fino mejorado con paralingüística (PE-FT) que, mediante análisis de capas y componentes específicos, capacita a los Modelos de Lenguaje Audio Grandes (LALMs) para reconocer y responder a las señales paralingüísticas, superando así las estrategias de ajuste fino tradicionales centradas únicamente en el contenido.

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

Controllable Dance Generation with Style-Guided Motion Diffusion

El artículo presenta SGMD, un modelo de difusión de movimiento guiado por estilo que integra características musicales y prompts de estilo para generar secuencias de danza realistas, coherentes y controlables mediante mecanismos de enmascaramiento espacio-temporal.

Hongsong Wang, Ying Zhu, Xin Geng + 1 more2026-03-11⚡ eess

altiro3D: Scene representation from single image and novel view synthesis

El artículo presenta altiro3D, una biblioteca de código abierto que genera experiencias 3D realistas y síntesis de vistas novedosas a partir de una sola imagen o video plano, utilizando estimación de profundidad, técnicas de inpainting y algoritmos de proyección para crear múltiples puntos de vista visualizables en pantallas LCD de libre visión.

E. Canessa, L. Tenze2026-03-10💻 cs

InstructHumans: Editing Animated 3D Human Textures with Instructions

El artículo presenta InstructHumans, un marco innovador que permite la edición de texturas 3D de humanos animables mediante instrucciones, utilizando una versión modificada del muestreo de distilación de puntuación (SDS-E) para lograr cambios fieles al texto sin comprometer la consistencia con el avatar original.

Jiayin Zhu, Linlin Yang, Angela Yao2026-03-06💻 cs

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

El artículo presenta EasyAnimate, un marco de generación de video de alto rendimiento que utiliza atención híbrida en ventanas y retropropagación de recompensas para lograr una velocidad de inferencia superior y una calidad de video de vanguardia, superando a los modelos existentes en eficiencia y resultados evaluados por humanos.

Jiaqi Xu, Kunzhe Huang, Xinyi Zou + 5 more2026-03-06💻 cs

ExposureEngine: Oriented Logo Detection and Sponsor Visibility Analytics in Sports Broadcasts

Este artículo presenta ExposureEngine, un sistema integral que utiliza cajas delimitadoras orientadas y un agente de lenguaje natural para cuantificar con precisión la visibilidad de patrocinadores en transmisiones deportivas, superando las limitaciones de los métodos tradicionales mediante un nuevo conjunto de datos de fútbol sueco.

Mehdi Houshmand Sarkhoosh, Frøy Øye, Henrik Nestor Sørlie + 5 more2026-03-06💻 cs

When Denoising Becomes Unsigning: Theoretical and Empirical Analysis of Watermark Fragility Under Diffusion-Based Image Editing

Este artículo demuestra teórica y empíricamente que la edición de imágenes basada en difusión degrada o elimina sistemáticamente las marcas de agua invisibles robustas, al tratar los datos de la marca como ruido de alta frecuencia durante el proceso de denoising, lo que plantea nuevos desafíos para la trazabilidad del contenido generado.

Fai Gu, Qiyu Tang, Te Wen, Emily Davis, Finn Carter2026-03-06🔒 cs.CR

DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization

El artículo presenta DeformTrace, un modelo innovador que combina dinámicas deformables y un mecanismo de tokens de relevo dentro de arquitecturas de Espacio de Estados (SSM) para lograr una localización temporal de falsificaciones en video y audio con mayor precisión, eficiencia y robustez que los métodos actuales.

Xiaodong Zhu, Suting Wang, Yuanming Zheng + 5 more2026-03-06🤖 cs.AI

SarcasmMiner: A Dual-Track Post-Training Framework for Robust Audio-Visual Sarcasm Reasoning

El artículo presenta SarcasmMiner, un marco de entrenamiento posterior basado en aprendizaje por refuerzo que utiliza una estrategia de destilación dual y optimización de políticas para mejorar significativamente la detección de sarcasmo multimodal al reformularla como un proceso de razonamiento estructurado.

Zhu Li, Yongjian Chen, Huiyuan Lai + 3 more2026-03-06💬 cs.CL

Learning to Generate Conditional Tri-plane for 3D-aware Expression Controllable Portrait Animation

El artículo presenta Export3D, un método de animación de retratos en una sola toma que genera un triplano 3D condicional mediante un marco de preentrenamiento contrastivo para controlar la expresión y la vista de la cámara sin intercambiar la apariencia de la identidad.

Taekyung Ki, Dongchan Min, Gyeongsu Chae2026-03-05🤖 cs.AI

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Este artículo presenta CMI-RewardBench, un ecosistema integral que incluye un nuevo benchmark, conjuntos de datos de preferencias y modelos de recompensa eficientes para evaluar y alinear modelos de generación musical con instrucciones multimodales compuestas.

Yinghao Ma, Haiwen Xia, Hewei Gao + 9 more2026-03-05🤖 cs.AI

Order Is Not Layout: Order-to-Space Bias in Image Generation

Este trabajo identifica y cuantifica el "sesgo de orden a espacio" (OTS), un fenómeno en modelos de generación de imágenes donde el orden de mención de entidades en el texto distorsiona incorrectamente su disposición espacial, proponiendo además estrategias de intervención temprana y ajuste fino para mitigarlo sin comprometer la calidad.

Yongkang Zhang, Zonglin Zhao, Yuechen Zhang + 3 more2026-03-05🤖 cs.AI

Crab $^{+}$ : A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

El modelo Crab $^{+}$ aborda el problema de la transferencia negativa en la comprensión unificada de escenas audio-visuales mediante un conjunto de datos de instrucción con razonamiento explícito y un mecanismo de LoRA interactivo que coordina dinámicamente las tareas heterogéneas, logrando así un rendimiento superior en la mayoría de las tareas en comparación con los enfoques de entrenamiento único.

Dongnuan Cai, Henghui Du, Chang Zhou + 5 more2026-03-05🤖 cs.AI

← Anterior

cs.MM