DiffWind: Physics-Informed Differentiable Modeling of Wind-Driven Object Dynamics

El artículo presenta DiffWind, un marco de modelado diferenciable basado en física que utiliza la simulación de partículas y restricciones de dinámica de fluidos para reconstruir y simular con alta precisión la interacción entre el viento y objetos deformables a partir de observaciones de video.

Yuanhang Lei, Boming Zhao, Zesong Yang, Xingxuan Li, Tao Cheng, Haocheng Peng, Ru Zhang, Yang Yang, Siyuan Huang, Yujun Shen, Ruizhen Hu, Hujun Bao, Zhaopeng Cui2026-03-11💻 cs

AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering

Este trabajo presenta AutoViVQA, un conjunto de datos a gran escala construido automáticamente para la Respuesta Visual a Preguntas en vietnamita, donde se exploran arquitecturas basadas en transformers y se comparan sistemáticamente métricas de evaluación automáticas en entornos multilingües.

Nguyen Anh Tuong, Phan Ba Duc, Nguyen Trung Quoc, Tran Dac Thinh, Dang Duy Lan, Nguyen Quoc Thinh, Tung Le2026-03-11🤖 cs.AI

DRIFT: Dual-Representation Inter-Fusion Transformer for Automated Driving Perception with 4D Radar Point Clouds

El artículo presenta DRIFT, un modelo transformador de doble representación que fusiona características locales y globales mediante una arquitectura de dos vías para mejorar la percepción en la conducción automatizada utilizando nubes de puntos de radar 4D, superando a los métodos existentes en tareas de detección de objetos y estimación de carreteras.

Siqi Pei, Andras Palffy, Dariu M. Gavrila2026-03-11💻 cs

TemporalDoRA: Temporal PEFT for Robust Surgical Video Question Answering

El artículo presenta TemporalDoRA, un método de ajuste fino eficiente en parámetros diseñado para mejorar la robustez y la precisión temporal en la respuesta a preguntas sobre videos quirúrgicos mediante la integración de atención temporal dentro de la adaptación de bajo rango, validado con el nuevo conjunto de datos REAL-Colon-VQA.

Luca Carlini, Chiara Lena, Cesare Hassan, Danail Stoyanov, Elena De Momi, Sophia Bano, Mobarak I. Hoque2026-03-11💻 cs

TriFusion-SR: Joint Tri-Modal Medical Image Fusion and SR

El artículo presenta TriFusion-SR, un marco de difusión condicional guiado por wavelets que realiza de forma conjunta la fusión de imágenes médicas tri-modales y la superresolución, superando a los métodos existentes mediante la descomposición de frecuencias y la calibración de coeficientes para lograr mejoras significativas en la calidad perceptual y métricas de precisión.

Fayaz Ali Dharejo, Sharif S. M. A., Aiman Khalil, Nachiket Chaudhary, Rizwan Ali Naqvi, Radu Timofte2026-03-11💻 cs

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

El artículo presenta EXPLORE-Bench, un nuevo benchmark basado en videos en primera persona diseñado para evaluar la capacidad de los modelos de lenguaje multimodal para predecir escenas egocéntricas tras secuencias de acciones de largo alcance, revelando una brecha significativa frente al rendimiento humano y explorando estrategias de razonamiento paso a paso para mejorar esta tarea.

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun Zha2026-03-11🤖 cs.AI

FetalAgents: A Multi-Agent System for Fetal Ultrasound Image and Video Analysis

El artículo presenta FetalAgents, el primer sistema multiagente diseñado para analizar imágenes y videos de ecografías fetales mediante la coordinación dinámica de expertos visuales especializados, logrando un rendimiento superior en diagnóstico, medición y segmentación, además de generar informes clínicos estructurados a partir de flujos de video completos.

Xiaotian Hu, Junwei Huang, Mingxuan Liu, Kasidit Anmahapong, Yifei Chen, Yitong Luo, Yiming Huang, Xuguang Bai, Zihan Li, Yi Liao, Haibo Qu, Qiyuan Tian2026-03-11💻 cs

M2M^2-Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs

El artículo presenta M2M^2-Occ, un marco innovador que mejora la predicción de ocupación semántica 3D para la conducción autónoma al manejar entradas de cámaras incompletas mediante la reconstrucción de vistas faltantes y el uso de una memoria de características, logrando así una mayor robustez y precisión incluso en escenarios con múltiples vistas perdidas.

Kaixin Lin, Kunyu Peng, Di Wen, Yufan Chen, Ruiping Liu, Kailun Yang2026-03-11⚡ eess

ENIGMA-360: An Ego-Exo Dataset for Human Behavior Understanding in Industrial Scenarios

El artículo presenta ENIGMA-360, un nuevo conjunto de datos sincronizado de vistas egocéntrica y exocéntrica grabado en un entorno industrial real y etiquetado para facilitar la comprensión del comportamiento humano mediante tareas como la segmentación temporal de acciones, el reconocimiento de pasos clave y la detección de interacciones persona-objeto.

Francesco Ragusa, Rosario Leonardi, Michele Mazzamuto, Daniele Di Mauro, Camillo Quattrocchi, Alessandro Passanisi, Irene D'Ambra, Antonino Furnari, Giovanni Maria Farinella2026-03-11💻 cs

LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos

El artículo presenta LAP, un modelo de planificación que utiliza un modelo de lenguaje-visión para convertir observaciones visuales en descripciones textuales más distintivas y generar secuencias de acciones mediante un modelo de difusión, logrando así un rendimiento superior en la planificación de procedimientos para videos instruccionales.

Lei Shi, Victor Aregbede, Andreas Persson, Martin Längkvist, Amy Loutfi, Stephanie Lowry2026-03-11💻 cs

PanoAffordanceNet: Towards Holistic Affordance Grounding in 360{\deg} Indoor Environments

El artículo presenta PanoAffordanceNet, un marco innovador y un nuevo conjunto de datos (360-AGD) diseñados para superar los desafíos de la percepción global en entornos interiores de 360°, permitiendo una fundamentación holística de las affordances mediante la corrección de distorsiones geométricas y la alineación semántica a escala.

Guoliang Zhu, Wanjun Jia, Caoyang Shao, Yuheng Zhang, Zhiyong Li, Kailun Yang2026-03-11⚡ eess

Removing the Trigger, Not the Backdoor: Alternative Triggers and Latent Backdoors

Este artículo demuestra que las defensas actuales contra puertas traseras son insuficientes porque eliminar el desencadenante original no elimina la vulnerabilidad, ya que existen "desencadenantes alternativos" que explotan la dirección latente de la puerta trasera en el espacio de características, lo que sugiere la necesidad de desarrollar defensas que se enfoquen en la representación en lugar de en los desencadenantes de entrada.

Gorka Abad, Ermes Franch, Stefanos Koffas, Stjepan Picek2026-03-11💻 cs