LucidNFT: LR-Anchored Multi-Reward Preference Optimization for Generative Real-World Super-Resolution

El artículo presenta LucidNFT, un marco de optimización de preferencias basado en aprendizaje por refuerzo que aborda los problemas de fidelidad y colapso de ventajas en la super-resolución de imágenes reales mediante la introducción de un evaluador de consistencia robusto, una estrategia de normalización de ventajas desacoplada y un conjunto de datos a gran escala de degradaciones reales.

Song Fei, Tian Ye, Sixiang Chen, Zhaohu Xing, Jianyu Lai, Lei Zhu2026-03-09💻 cs

OVGGT: O(1) Constant-Cost Streaming Visual Geometry Transformer

El artículo presenta OVGGT, un marco de entrenamiento gratuito que permite la inferencia de geometría 3D en videos de flujo continuo de longitud arbitraria con un costo de memoria y computación constante, superando las limitaciones de los modelos existentes mediante el uso de una caché selectiva y una protección dinámica de anclajes para evitar la deriva geométrica.

Si-Yu Lu, Po-Ting Chen, Hui-Che Hsu, Sin-Ye Jhong, Wen-Huang Cheng, Yung-Yao Chen2026-03-09💻 cs

Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models

Este artículo presenta Skeleton-to-Image Encoding (S2I), un método innovador que transforma secuencias de esqueletos 3D en representaciones similares a imágenes para aprovechar modelos de visión preentrenados en el aprendizaje auto-supervisado de esqueletos, logrando así un formato unificado que mejora el rendimiento y la generalización en tareas de reconocimiento de acciones.

Siyuan Yang, Jun Liu, Hao Cheng, Chong Wang, Shijian Lu, Hedvig Kjellstrom, Weisi Lin, Alex C. Kot2026-03-09🤖 cs.AI

CR-QAT: Curriculum Relational Quantization-Aware Training for Open-Vocabulary Object Detection

El artículo presenta CR-QAT, un marco de entrenamiento cuantizado que combina una optimización curricular progresiva y destilación de conocimiento relacional centrada en texto para mitigar la degradación de la alineación visión-idioma en la detección de objetos de vocabulario abierto bajo cuantización extrema de 4 bits, logrando mejoras significativas en los benchmarks LVIS y COCO.

Jinyeong Park, Donghwa Kim, Brent ByungHoon Kang, Hyeongboo Baek, Jibum Kim2026-03-09💻 cs

PROBE: Probabilistic Occupancy BEV Encoding with Analytical Translation Robustness for 3D Place Recognition

PROBE es un descriptor de reconocimiento de lugares basado en LiDAR que, sin necesidad de aprendizaje, modela la ocupación en vistas aéreas como variables aleatorias de Bernoulli y utiliza una marginalización analítica para lograr una robustez ante traslaciones y generalización entre sensores, logrando un rendimiento superior entre los métodos no supervisados en múltiples conjuntos de datos.

Jinseop Lee, Byoungho Lee, Gichul Yoo2026-03-09💻 cs

Breaking Smooth-Motion Assumptions: A UAV Benchmark for Multi-Object Tracking in Complex and Adverse Conditions

El artículo presenta DynUAV, un nuevo benchmark para el seguimiento de múltiples objetos desde la perspectiva de drones que aborda las limitaciones de los conjuntos de datos existentes al introducir secuencias con movimientos agresivos, cambios drásticos de escala y desenfoque por movimiento, evaluando así la capacidad de los rastreadores actuales en condiciones adversas y complejas.

Jingtao Ye, Kexin Zhang, Xunchi Ma, Yuehan Li, Guangming Zhu, Peiyi Shen, Linhua Jiang, Xiangdong Zhang, Liang Zhang2026-03-09💻 cs

Towards High-resolution and Disentangled Reference-based Sketch Colorization

Este artículo presenta un marco de trabajo de doble rama con regularización Gram y una red de etiquetado específica para anime que minimiza directamente el desplazamiento de distribución entre los datos de entrenamiento y prueba, logrando así un estado del arte en colorización de bocetos de alta resolución y controlable.

Dingkun Yan, Xinrui Wang, Ru Wang, Zhuoru Li, Jinze Yu, Yusuke Iwasawa, Yutaka Matsuo, Jiaxian Guo2026-03-09💻 cs

HarvestFlex: Strawberry Harvesting via Vision-Language-Action Policy Adaptation in the Wild

Este trabajo presenta el primer estudio sobre la transferencia de políticas de visión-idioma-acción (VLA) a la cosecha real de fresas en invernadero, logrando un sistema de bucle cerrado con un 74% de éxito mediante el uso de sensores RGB, demostraciones teleoperadas y la adaptación de modelos como pi_0.5, sin depender de nubes de puntos de profundidad ni calibración geométrica explícita.

Ziyang Zhao, Shuheng Wang, Zhonghua Miao, Ya Xiong2026-03-09💻 cs

Technical Report: Automated Optical Inspection of Surgical Instruments

Este informe presenta un sistema de inspección óptica automatizada basado en arquitecturas de aprendizaje profundo (YOLOv8, ResNet-152 y EfficientNet-b4) para detectar defectos críticos en instrumentos quirúrgicos fabricados en Pakistán, utilizando un conjunto de datos de 4.414 imágenes y colaborando con líderes de la industria local para mejorar la seguridad del paciente y la calidad de fabricación.

Zunaira Shafqat, Atif Aftab Ahmed Jilani, Qurrat Ul Ain2026-03-09🤖 cs.AI

MM-ISTS: Cooperating Irregularly Sampled Time Series Forecasting with Multimodal Vision-Text LLMs

El artículo presenta MM-ISTS, un marco multimodal que utiliza modelos de lenguaje grandes de visión y texto para mejorar la predicción de series temporales muestreadas irregularmente mediante la integración de representaciones temporales, visuales y textuales, un mecanismo de codificación en dos etapas y un módulo de alineación multimodal.

Zhi Lei, Chenxi Liu, Hao Miao, Wanghui Qiu, Bin Yang, Chenjuan Guo2026-03-09🤖 cs.AI

RePer-360: Releasing Perspective Priors for 360^\circ Depth Estimation via Self-Modulation

El artículo presenta RePer-360, un marco de auto-modulación consciente de la distorsión que adapta modelos de profundidad fundacionales entrenados en imágenes perspetivas al dominio panorámico de 360° preservando sus conocimientos previos mediante un módulo de guía geométrica y un mecanismo de auto-condicionamiento, logrando así un rendimiento superior con solo el 1% de los datos de entrenamiento.

Cheng Guan, Chunyu Lin, Zhijie Shen, Junsong Zhang, Jiyuan Wang2026-03-09💻 cs