Mesh-Pro: Asynchronous Advantage-guided Ranking Preference Optimization for Artist-style Quadrilateral Mesh Generation

El artículo presenta Mesh-Pro, un marco de aprendizaje por refuerzo asíncrono que utiliza la optimización de preferencias de ranking guiada por ventaja (ARPO) junto con una tokenización de malla diagonalmente consciente y una recompensa basada en rayos para generar mallas cuadrangulares de estilo artístico con mayor eficiencia y calidad que los métodos existentes.

Zhen Zhou, Jian Liu, Biwen Lei + 10 more2026-03-03💻 cs

Multiple Inputs and Mixwd data for Alzheimer's Disease Classification Based on 3D Vision Transformer

Este estudio presenta el MIMD-3DVT, un nuevo modelo basado en transformadores de visión 3D que integra múltiples regiones de interés de imágenes de resonancia magnética con datos demográficos y cognitivos para lograr una clasificación precisa del Alzheimer con un 97,14% de exactitud, superando a los métodos actuales.

Juan A. Castro-Silva, Maria N. Moreno Garcia, Diego H. Peluffo-Ordoñez2026-03-03💻 cs

Weakly Supervised Video Anomaly Detection with Anomaly-Connected Components and Intention Reasoning

El artículo presenta LAS-VAD, un nuevo marco para la detección de anomalías en video con supervisión débil que integra mecanismos de componentes conectados de anomalías y razonamiento de intenciones, junto con información de atributos, para superar las limitaciones de la falta de anotaciones a nivel de fotograma y lograr un rendimiento superior en conjuntos de datos de referencia.

Yu Wang, Shengjie Zhao2026-03-03💻 cs

Geometry OR Tracker: Universal Geometric Operating Room Tracking

El artículo presenta Geometry OR Tracker, un sistema de seguimiento 3D universal para quirófanos que corrige la inconsistencia geométrica entre múltiples vistas mediante una rectificación métrica para lograr un marco de coordenadas global coherente, mejorando significativamente la precisión del rastreo y reduciendo el error de profundidad en más de 30 veces en comparación con la calibración estándar.

Yihua Shao, Kang Chen, Feng Xue + 6 more2026-03-03🤖 cs.AI

LangGap: Diagnosing and Closing the Language Gap in Vision-Language-Action Models

El artículo presenta LangGap, un benchmark diseñado para diagnosticar y abordar la incapacidad de los modelos Visión-Lenguaje-Acción (VLA) actuales para comprender instrucciones lingüísticas diversas, revelando que, aunque la augmentación de datos mejora el rendimiento en tareas específicas, la capacidad de aprendizaje de estos modelos sigue siendo insuficiente ante la diversidad semántica.

Yuchen Hou, Lin Zhao2026-03-03💬 cs.CL

IdGlow: Dynamic Identity Modulation for Multi-Subject Generation

IdGlow es un marco de dos etapas basado en modelos de difusión Flow Matching que resuelve el dilema estabilidad-plasticidad en la generación de imágenes multi-persona mediante programación de timesteps adaptativa, síntesis de prompts impulsada por VLM y optimización directa de preferencias (DPO), logrando así una armonización coherente de múltiples identidades con alta fidelidad facial y calidad estética.

Honghao Cai, Xiangyuan Wang, Yunhao Bai + 10 more2026-03-03🤖 cs.AI

Exploring Spatiotemporal Feature Propagation for Video-Level Compressive Spectral Reconstruction: Dataset, Model and Benchmark

Este artículo presenta DynaSpec, el primer conjunto de datos de imágenes hiperespectrales dinámicas de alta calidad, junto con el modelo PG-SVRT y un prototipo de benchmark, para superar las limitaciones de consistencia temporal y fidelidad espectral en la reconstrucción de video mediante imágenes espectrales compresivas.

Lijing Cai, Zhan Shi, Chenglong Huang + 6 more2026-03-03💻 cs