Seeing What Matters: Visual Preference Policy Optimization for Visual Generation

El artículo presenta ViPO, una variante de la Optimización de Política de Preferencia Visual que mejora el entrenamiento de modelos generativos al transformar las recompensas escalares en mapas de ventaja a nivel de píxel, permitiendo así una alineación más precisa con las preferencias humanas y una corrección efectiva de artefactos locales en imágenes y videos.

Ziqi Ni, Yuanzhi Liang, Rui Li + 4 more2026-02-25💻 cs

The devil is in the details: Enhancing Video Virtual Try-On via Keyframe-Driven Details Injection

El artículo presenta KeyTailor, un marco innovador que mejora el probador virtual en video mediante una estrategia de inyección de detalles impulsada por fotogramas clave para preservar la dinámica de la ropa y la integridad del fondo, junto con el conjunto de datos ViT-HD de alta definición, logrando resultados superiores a los métodos actuales con menor complejidad computacional.

Qingdong He, Xueqin Chen, Yanjie Pan + 7 more2026-02-25💻 cs

CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving

CogFlow es un marco de tres etapas inspirado en la cognición humana que mejora la resolución de problemas matemáticos visuales mediante la internalización de conocimientos y recompensas visuales sinérgicas para garantizar una integración fiel de la percepción en el razonamiento, respaldado por un nuevo conjunto de datos llamado MathCog.

Shuhang Chen, Yunqiu Xu, Junjie Xie + 7 more2026-02-25🤖 cs.AI

Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

El artículo presenta Fast-ThinkAct, un marco de razonamiento eficiente para tareas de Visión-Lenguaje-Acción que utiliza razonamiento latente verbalizable para reducir la latencia de inferencia hasta un 89,3% en comparación con los métodos actuales, manteniendo al mismo tiempo una fuerte capacidad de planificación y adaptación en entornos dinámicos.

Chi-Pin Huang, Yunze Man, Zhiding Yu + 4 more2026-02-25🤖 cs.AI

CER-HV: A Human-in-the-Loop Framework for Cleaning Datasets Applied to Arabic-Script HTR

El artículo presenta CER-HV, un marco de trabajo con intervención humana que combina un detector de ruido basado en CER y verificación manual para identificar y limpiar errores en conjuntos de datos de reconocimiento de texto manuscrito en escritura árabe, demostrando que la mejora de la calidad de los datos eleva significativamente el rendimiento del modelo y establece nuevos estándares de referencia.

Sana Al-azzawi, Elisa Barney, Marcus Liwicki2026-02-25💻 cs

Pareto-Guided Optimization for Uncertainty-Aware Medical Image Segmentation

Este artículo propone un enfoque de optimización guiado por Pareto para la segmentación de imágenes médicas que, mediante una estrategia de currículo regional, una función de pérdida consistente con Pareto y un mecanismo de etiquetado difuso, aborda la incertidumbre no uniforme en los bordes para lograr una convergencia más estable y superar a los métodos tradicionales en la delimitación de tumores.

Jinming Zhang, Youpeng Yang, Xi Yang + 5 more2026-02-25💻 cs

DVLA-RL: Dual-Level Vision-Language Alignment with Reinforcement Learning Gating for Few-Shot Learning

El artículo presenta DVLA-RL, un enfoque de aprendizaje con pocos ejemplos que utiliza la alineación semántica de dos niveles y un mecanismo de atención con puertas controladas por aprendizaje por refuerzo para integrar dinámicamente atributos visuales de bajo nivel y descripciones de alto nivel generadas por modelos de lenguaje, logrando así un rendimiento superior en nueve benchmarks.

Wenhao Li, Xianjing Meng, Qiangchang Wang + 3 more2026-02-25💻 cs

DriveMamba: Task-Centric Scalable State Space Model for Efficient End-to-End Autonomous Driving

El artículo presenta DriveMamba, un modelo de espacio de estado escalable centrado en tareas que utiliza un decodificador unificado Mamba con complejidad lineal y un escaneo bidireccional guiado por trayectorias para superar las limitaciones de eficiencia y pérdida de información de los sistemas de conducción autónoma de extremo a extremo existentes, demostrando un rendimiento superior en conjuntos de datos como nuScenes y Bench2Drive.

Haisheng Su, Wei Wu, Feixiang Song + 3 more2026-02-25💻 cs

Sim2Radar: Toward Bridging the Radar Sim-to-Real Gap with VLM-Guided Scene Reconstruction

Sim2Radar es un marco de trabajo que cierra la brecha entre la simulación y la realidad en la percepción por radar de ondas milimétricas al sintetizar datos de entrenamiento a partir de imágenes RGB utilizando reconstrucción de escenas guiada por visión artificial y modelos físicos, logrando así mejoras significativas en la detección de objetos 3D mediante aprendizaje por transferencia.

Emily Bejerano, Federico Tondolo, Ayaan Qayyum + 2 more2026-02-25🤖 cs.AI

Tree crop mapping of South America reveals links to deforestation and conservation

Este estudio presenta el primer mapa de cultivos leñosos de 10 metros de resolución para Sudamérica, generado mediante aprendizaje profundo, que revela vínculos con la deforestación y corrige errores en los mapas regulatorios actuales que clasifican erróneamente la agricultura establecida como bosque, protegiendo así a los pequeños agricultores.

Yuchang Jiang, Anton Raichuk, Xiaoye Tong + 6 more2026-02-25💻 cs