ThinkRL-Edit: Thinking in Reinforcement Learning for Reasoning-Centric Image Editing

El artículo presenta ThinkRL-Edit, un marco de aprendizaje por refuerzo centrado en el razonamiento que mejora la edición de imágenes basada en instrucciones mediante la desacoplación del razonamiento visual de la síntesis, la implementación de un muestreo con cadena de pensamiento para explorar hipótesis semánticas y el uso de recompensas binarias más precisas para superar las limitaciones actuales.

Hengjia Li, Liming Jiang, Qing Yan + 6 more2026-02-27💻 cs

Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

El artículo presenta Molmo2, una nueva familia de modelos de lenguaje visual de código abierto con pesos y datos totalmente accesibles que, gracias a un conjunto de siete nuevos datasets de video y una receta de entrenamiento innovadora, logran un rendimiento superior en la comprensión de video y en tareas de fundamentación espacial (como el seguimiento y la indicación por puntos), superando tanto a los modelos de código abierto existentes como a algunos modelos propietarios.

Christopher Clark, Jieyu Zhang, Zixian Ma + 18 more2026-02-27🤖 cs.AI

Benchmarking Video Foundation Models for Remote Parkinson's Disease Screening

Este estudio presenta una evaluación sistemática a gran escala de siete modelos fundacionales de video para la detección remota de la enfermedad de Parkinson, demostrando que el rendimiento varía significativamente según la arquitectura y la tarea clínica específica, con resultados que van desde un 76,4 % hasta un 85,3 % de AUC y que subrayan la necesidad de calibrar los modelos y combinar múltiples tareas para mejorar la sensibilidad.

Md Saiful Islam, Ekram Hossain, Abdelrahman Abdelkader + 11 more2026-02-27💻 cs

Index Light, Reason Deep: Deferred Visual Ingestion for Visual-Dense Document Question Answering

Este artículo presenta el marco DVI, que mejora sustancialmente la respuesta a preguntas en documentos técnicos visualmente densos al eliminar la ingestión visual previa y utilizar un índice jerárquico automático basado en la estructura del documento, logrando así una precisión significativamente superior a los métodos tradicionales de recuperación por similitud de embeddings.

Tao Xu2026-02-27💬 cs.CL

Automated Disentangling Analysis of Skin Colour for Lesion Images

Este trabajo propone un marco de desentrelazamiento de color de piel que, mediante la descomposición de factores ambientales e intrínsecos en un espacio latente estructurado y técnicas de decoloración aleatoria, permite la edición contrapuntual y la normalización de imágenes dermatológicas para mejorar la equidad y el rendimiento en la clasificación de lesiones cutáneas.

Wenbo Yang, Eman Rezk, Walaa M. Moursi + 1 more2026-02-27⚡ eess

FUSAR-GPT : A Spatiotemporal Feature-Embedded and Two-Stage Decoupled Visual Language Model for SAR Imagery

El artículo presenta FUSAR-GPT, un modelo de lenguaje visual diseñado específicamente para imágenes SAR que, mediante la integración de características espacio-temporales y una estrategia de ajuste fino en dos etapas, supera significativamente a los modelos existentes en la interpretación inteligente de datos de radar de apertura sintética.

Xiaokun Zhang, Yi Yang, Ziqi Ye + 6 more2026-02-27🤖 cs.AI

DICArt: Advancing Category-level Articulated Object Pose Estimation in Discrete State-Spaces

El artículo presenta DICArt, un marco novedoso que aborda la estimación de pose de objetos articulados mediante un proceso de difusión condicional en espacios discretos, integrando un decisor de flujo dinámico y una estrategia de acoplamiento cinemático jerárquico para superar las limitaciones de los métodos continuos existentes y lograr una estimación de pose 6D más robusta y precisa.

Li Zhang, Mingyu Mei, Ailing Wang + 7 more2026-02-27🤖 cs.AI