Real-Time Motion-Controllable Autoregressive Video Diffusion

El artículo presenta AR-Drag, el primer modelo de difusión autoregresivo de pocos pasos potenciado por aprendizaje por refuerzo que permite la generación de video en tiempo real a partir de imágenes con control de movimiento preciso y alta fidelidad visual, superando las limitaciones de latencia y calidad de los enfoques existentes.

Kesen Zhao, Jiaxin Shi, Beier Zhu, Junbao Zhou, Xiaolong Shen, Yuan Zhou, Qianru Sun, Hanwang Zhang2026-03-10💻 cs

CDE: Concept-Driven Exploration for Reinforcement Learning

El artículo presenta CDE, un enfoque de exploración en aprendizaje por refuerzo que utiliza conceptos visuales derivados de modelos de lenguaje-vision para guiar la exploración mediante una recompensa intrínseca basada en la reconstrucción, logrando así un rendimiento eficiente tanto en simulaciones complejas como en tareas de manipulación en el mundo real.

Le Mao, Andrew H. Liu, Renos Zabounidis, Yanan Niu, Zachary Kingston, Joseph Campbell2026-03-10💻 cs

Reallocating Attention Across Layers to Reduce Multimodal Hallucination

Este trabajo propone un plugin ligero y sin reentrenamiento que identifica y reequilibra las cabezas de atención orientadas a la percepción y al razonamiento en modelos de razonamiento multimodal, reduciendo así las alucinaciones y mejorando la consistencia en múltiples benchmarks con un coste computacional mínimo.

Haolang Lu, Bolun Chu, WeiYe Fu, Guoshun Nan, Junning Liu, Minghui Pan, Qiankun Li, Yi Yu, Hua Wang, Kun Wang2026-03-10💻 cs

Preference-Conditioned Multi-Objective RL for Integrated Command Tracking and Force Compliance in Humanoid Locomotion

Este trabajo presenta un marco de aprendizaje por refuerzo multiobjetivo condicionado por preferencias que permite a un robot humanoide equilibrar dinámicamente el seguimiento de comandos de navegación y la compliancia ante fuerzas externas mediante un único policy omnidireccional, validado exitosamente tanto en simulación como en hardware real.

Tingxuan Leng, Yushi Wang, Tinglong Zheng, Changsheng Luo, Mingguo Zhao2026-03-10💻 cs

DropVLA: An Action-Level Backdoor Attack on Vision-Language-Action Models

DropVLA es un ataque de puerta trasera a nivel de acción que, mediante la inyección de datos enriquecidos con desencadenantes visuales, logra forzar la ejecución de primitivas de acción específicas en modelos de visión-idioma-acción con una tasa de éxito cercana al 100% y una retención de tareas limpias casi perfecta, incluso en entornos físicos reales.

Zonghuan Xu, Jiayu Li, Yunhan Zhao, Xiang Zheng, Xingjun Ma, Yu-Gang Jiang2026-03-10💻 cs

Ego-Vision World Model for Humanoid Contact Planning

Este trabajo presenta un marco de planificación de contacto para humanoides que combina un modelo de mundo aprendido en espacio latente con control predictivo basado en muestreo y una función de valor sustituta, logrando una planificación de contacto robusta y eficiente en tiempo real a partir de datos offline sin demostraciones.

Hang Liu, Yuman Gao, Sangli Teng, Yufeng Chi, Yakun Sophia Shao, Zhongyu Li, Maani Ghaffari, Koushil Sreenath2026-03-10💻 cs

Unsupervised Deep Generative Models for Anomaly Detection in Neuroimaging: A Systematic Scoping Review

Esta revisión sistemática de alcance analiza estudios publicados entre 2018 y 2025 sobre el uso de modelos generativos profundos no supervisados para la detección de anomalías en neuroimagen, concluyendo que, aunque prometen localizar patologías sin datos anotados, su aplicación clínica enfrenta desafíos como la heterogeneidad metodológica y la falta de validación externa.

Youwan Mahé, Elise Bannier, Stéphanie Leplaideur, Elisa Fromont, Francesca Galassi2026-03-10💻 cs

Taming Modality Entanglement in Continual Audio-Visual Segmentation

Este trabajo aborda el desafío de la entrelazamiento modal en el aprendizaje continuo de segmentación audio-visual mediante la propuesta de una nueva tarea (CAVS) y un marco de ensayo multimodal basado en colisiones (CMR) que, mediante estrategias de selección y frecuencia de muestras, mitiga la deriva semántica y la confusión por co-ocurrencia, superando significativamente a los métodos unimodales.

Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang2026-03-10💻 cs

Khelte Khelte Shikhi: A Proposed HCI Framework for Gamified Interactive Learning with Minecraft in Bangladeshi Education Systems

Este trabajo presenta un marco conceptual de HCI que propone adaptar Minecraft Education Edition al sistema educativo de Bangladesh mediante un modelo de despliegue escalonado en tres niveles, contenido local en bengalí y soluciones de bajo costo diseñadas para superar las severas limitaciones de infraestructura y recursos de las escuelas rurales y urbanas.

Mohd Ruhul Ameen, Akif Islam, Momen Khandokar Ope2026-03-10💻 cs

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

El artículo presenta Dream4Drive, un marco de generación de datos sintéticos que utiliza modelos de mundo de conducción y activos 3D para crear casos extremos multivista fotorealistas, demostrando así una mejora significativa en el rendimiento de los modelos de percepción para la conducción autónoma.

Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang2026-03-10💻 cs

MoE-GS: Mixture of Experts for Dynamic Gaussian Splatting

El artículo presenta MoE-GS, un marco unificado pionero que integra una arquitectura de Mezcla de Expertos con un enrutador de píxeles consciente del volumen para mejorar la síntesis de nuevas vistas en escenas dinámicas mediante la combinación de priores de deformación heterogéneos, logrando un rendimiento superior al estado del arte junto con estrategias de eficiencia como la poda de Gaussianos y la destilación.

In-Hwan Jin, Hyeongju Mun, Joonsoo Kim, Kugjin Yun, Kyeongbo Kong2026-03-10💻 cs

Next Generation Cloud-native In-Memory Stores: From Redis to Valkey and Beyond

Este estudio presenta una evaluación exhaustiva y experimental de las alternativas modernas a Redis (Valkey, KeyDB y Garnet) en entornos Kubernetes, analizando sus compensaciones en rendimiento, eficiencia de recursos y viabilidad a largo plazo para llenar un vacío en la literatura actual sobre almacenes de datos en memoria nativos de la nube.

Carl-Johan Fauvelle Munck af Rosensch"old, Feras M. Awaysheh, Ahmad Awad2026-03-10💻 cs

Human-Centered LLM-Agent System for Detecting Anomalous Digital Asset Transactions

El artículo presenta HCLA, un sistema multiagente centrado en el humano que utiliza inteligencia artificial conversacional para transformar la detección de transacciones anómalas en activos digitales mediante un proceso de razonamiento trazable y justificable que prioriza la rendición de cuentas y la transparencia en el cumplimiento normativo.

Gyuyeon Na, Minjung Park, Hyeonjeong Cha, Sangmi Chai2026-03-10💻 cs