USF-Net: A Unified Spatiotemporal Fusion Network for Ground-Based Remote Sensing Cloud Image Sequence Extrapolation

El artículo presenta USF-Net, una red neuronal unificada que integra convoluciones de grandes kernels adaptativos y mecanismos de atención de bajo costo para mejorar la extrapolación de secuencias de imágenes de nubes en sistemas fotovoltaicos, superando las limitaciones de los métodos existentes en eficiencia y modelado de dependencias espaciotemporales, y acompañada del lanzamiento del nuevo conjunto de datos ASI-CIS.

Penghui Niu, Taotao Cai, Suqi Zhang + 4 more2026-02-27💻 cs

Diffusion Model in Latent Space for Medical Image Segmentation Task

El artículo presenta MedSegLatDiff, un marco de difusión en espacio latente que combina un autoencoder variacional con un modelo de difusión para lograr una segmentación médica eficiente y probabilística, superando las limitaciones computacionales de los métodos generativos actuales y ofreciendo resultados competitivos en conjuntos de datos clínicos.

Huynh Trinh Ngoc, Toan Nguyen Hai, Ba Luong Son + 1 more2026-02-27🤖 cs.AI

ClimaOoD: Improving Anomaly Segmentation via Physically Realistic Synthetic Data

El artículo presenta ClimaDrive, un marco de generación de imágenes guiado por semántica que produce datos sintéticos físicamente realistas y diversos en condiciones climáticas para construir el benchmark ClimaOoD, el cual mejora significativamente la generalización y robustez de los modelos de segmentación de anomalías en entornos de conducción autónoma.

Yuxing Liu, Zheng Li, Huanhuan Liang + 3 more2026-02-27💻 cs

Thinking Beyond Labels: Vocabulary-Free Fine-Grained Recognition using Reasoning-Augmented LMMs

El artículo presenta FiNDR, un marco innovador basado en modelos de lenguaje multimodal aumentados con razonamiento que logra el reconocimiento visual de categorías finas sin vocabulario predefinido, superando significativamente a los métodos anteriores y demostrando que las etiquetas curadas por humanos no constituyen un límite superior para el rendimiento.

Dmitry Demidov, Zaigham Zaheer, Zongyan Han + 2 more2026-02-27💻 cs

Beyond Pixel Simulation: Pathology Image Generation via Diagnostic Semantic Tokens and Prototype Control

El artículo presenta UniPath, un marco de generación de imágenes patológicas impulsado por semántica que supera las limitaciones de la simulación de píxeles mediante el uso de tokens semánticos diagnósticos y control de prototipos, logrando un rendimiento superior y un control semántico preciso gracias a un nuevo corpus de datos y una evaluación especializada.

Minghao Han, Yichen Liu, Yizhou Liu + 5 more2026-02-27💻 cs

ThinkRL-Edit: Thinking in Reinforcement Learning for Reasoning-Centric Image Editing

El artículo presenta ThinkRL-Edit, un marco de aprendizaje por refuerzo centrado en el razonamiento que mejora la edición de imágenes basada en instrucciones mediante la desacoplación del razonamiento visual de la síntesis, la implementación de un muestreo con cadena de pensamiento para explorar hipótesis semánticas y el uso de recompensas binarias más precisas para superar las limitaciones actuales.

Hengjia Li, Liming Jiang, Qing Yan + 6 more2026-02-27💻 cs

Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

El artículo presenta Molmo2, una nueva familia de modelos de lenguaje visual de código abierto con pesos y datos totalmente accesibles que, gracias a un conjunto de siete nuevos datasets de video y una receta de entrenamiento innovadora, logran un rendimiento superior en la comprensión de video y en tareas de fundamentación espacial (como el seguimiento y la indicación por puntos), superando tanto a los modelos de código abierto existentes como a algunos modelos propietarios.

Christopher Clark, Jieyu Zhang, Zixian Ma + 18 more2026-02-27🤖 cs.AI

Benchmarking Video Foundation Models for Remote Parkinson's Disease Screening

Este estudio presenta una evaluación sistemática a gran escala de siete modelos fundacionales de video para la detección remota de la enfermedad de Parkinson, demostrando que el rendimiento varía significativamente según la arquitectura y la tarea clínica específica, con resultados que van desde un 76,4 % hasta un 85,3 % de AUC y que subrayan la necesidad de calibrar los modelos y combinar múltiples tareas para mejorar la sensibilidad.

Md Saiful Islam, Ekram Hossain, Abdelrahman Abdelkader + 11 more2026-02-27💻 cs