cs.CV artículos | Gist.Science

Robust Sparse Signal Recovery with Outliers: A Hard Thresholding Pursuit Approach Based on LAD

Este artículo presenta el algoritmo GFHTP $_1$ , un enfoque de seguimiento de umbralización dura basado en desviaciones absolutas mínimas que permite la recuperación exacta de señales dispersas contaminadas por valores atípicos sin requerir conocimiento previo del nivel de dispersión, garantizando una convergencia teórica y un rendimiento superior en comparación con métodos existentes.

Jiao Xu, Peng Li, Bing Zheng2026-03-09🔢 math

SpatialMem: Metric-Aligned Long-Horizon Video Memory for Language Grounding and QA

SpatialMem es un sistema basado en memoria que utiliza una estructura espacial métrica 3D derivada de video egocéntrico RGB para habilitar la recuperación y el razonamiento de preguntas y respuestas de largo alcance en interiores, permitiendo consultas lingüísticas interpretables sobre relaciones espaciales sin necesidad de sensores especializados.

Xinyi Zheng, Yunze Liu, Chi-Hao Wu, Fan Zhang, Hao Zheng, Wenqi Zhou, Walterio W. Mayol-Cuevas, Junxiao Shen2026-03-09🤖 cs.AI

OnlineSI: Taming Large Language Model for Online 3D Understanding and Grounding

El documento presenta OnlineSI, un marco que permite a los Modelos de Lenguaje Multimodal mejorar continuamente su comprensión espacial en entornos cambiantes mediante una memoria espacial finita y la integración de nubes de puntos 3D, facilitando así su despliegue en sistemas corporales reales.

Zixian Liu, Zhaoxi Chen, Liang Pan, Ziwei Liu2026-03-09💻 cs

SRA 2: Variational Autoencoder Self-Representation Alignment for Efficient Diffusion Training

El artículo presenta SRA 2, un marco de guía intrínseca y ligero que alinea las características latentes de los transformadores de difusión con las de un autoencoder variacional preentrenado para acelerar el entrenamiento y mejorar la calidad de generación sin incurrir en la sobrecarga computacional de métodos externos o de doble modelo.

Mengmeng Wang, Dengyang Jiang, Liuzhuozheng Li, Yucheng Lin, Guojiang Shen, Xiangjie Kong, Yong Liu, Guang Dai, Jingdong Wang2026-03-09💻 cs

FARTrack: Fast Autoregressive Visual Tracking with High Performance

El paper presenta FARTrack, un marco de seguimiento visual autoregresivo que combina destilación auto-específica y esparsificación inter-frame para lograr un rendimiento competitivo y una velocidad de inferencia en tiempo real incluso en dispositivos con recursos limitados.

Guijie Wang, Tong Lin, Yifan Bai, Anjia Cao, Shiyi Liang, Wangbo Zhao, Xing Wei2026-03-09💻 cs

SpatialReward: Bridging the Perception Gap in Online RL for Image Editing via Explicit Spatial Reasoning

El artículo presenta SpatialReward, un modelo de recompensa que cierra la brecha de percepción en el aprendizaje por refuerzo en línea para la edición de imágenes mediante un razonamiento espacial explícito, logrando un rendimiento superior en benchmarks clave y potenciando significativamente la alineación de modelos como OmniGen2.

Yancheng Long, Yankai Yang, Hongyang Wei, Wei Chen, Tianke Zhang, Haonan fan, Changyi Liu, Kaiyu Jiang, Jiankang Chen, Kaiyu Tang, Bin Wen, Fan Yang, Tingting Gao, Han Li, Shuo Yang2026-03-09💻 cs

(MGS) $^2$ -Net: Unifying Micro-Geometric Scale and Macro-Geometric Structure for Cross-View Geo-Localization

El artículo presenta (MGS) $^2$ -Net, un marco innovador para la geolocalización cruzada que unifica la adaptación de escala micro-geométrica y el filtrado de estructura macro-geométrica para superar las desalineaciones entre vistas aéreas oblicuas y satelitales, logrando un rendimiento de vanguardia en la navegación de UAVs sin GNSS.

Minglei Li, Mengfan He, Chunyu Li, Chao Chen, Xingyu Shao, Ziyang Meng2026-03-09💻 cs

MiDAS: A Multimodal Data Acquisition System and Dataset for Robot-Assisted Minimally Invasive Surgery

El artículo presenta MiDAS, un sistema de código abierto y agnóstico a la plataforma que permite la adquisición multimodal no invasiva y sincronizada de datos en cirugía mínimamente invasiva asistida por robot, superando las barreras de acceso a la telemetría propietaria mediante la validación en robots Raven-II y da Vinci Xi con conjuntos de datos anotados que incluyen tareas de sutura de reparación de hernias.

Keshara Weerasinghe (MD), Seyed Hamid Reza Roodabeh (MD), Andrew Hawkins (MD), Zhaomeng Zhang, Zachary Schrader, Homa Alemzadeh2026-03-09🤖 cs.LG

DAV-GSWT: Diffusion-Active-View Sampling for Data-Efficient Gaussian Splatting Wang Tiles

El artículo presenta DAV-GSWT, un marco eficiente en datos que combina priores de difusión y muestreo activo de vistas para sintetizar baldosas de Gaussiano Splatting de alta fidelidad a partir de observaciones mínimas, reduciendo así la necesidad de reconstrucciones densas mientras se mantiene la integridad visual en entornos virtuales a gran escala.

Rong Fu, Jiekai Wu, Haiyun Wei, Yee Tan Jia, Yang Li, Xiaowen Ma, Wangyu Wu, Simon Fong2026-03-09💻 cs

Robust Self-Supervised Cross-Modal Super-Resolution against Real-World Misaligned Observations

El artículo presenta RobSelf, un modelo de autoaprendizaje que supera los desafíos de la superresolución cruzada en datos reales desalineados mediante la optimización conjunta de un traductor de características consciente de la desalineación y un filtro de referencia, logrando un rendimiento superior y una eficiencia significativamente mayor que los métodos existentes.

Xiaoyu Dong, Jiahuan Li, Ziteng Cui, Naoto Yokoya2026-03-09💻 cs

UrbanAlign: Post-hoc Semantic Calibration for VLM-Human Preference Alignment

El artículo presenta UrbanAlign, un marco de alineación post-hoc que alinea modelos de visión y lenguaje congelados con las preferencias humanas en la evaluación de entornos urbanos mediante la extracción de conceptos y la calibración de puntuaciones sin modificar los pesos del modelo, logrando un rendimiento superior a los métodos existentes en el conjunto de datos Place Pulse 2.0.

Yecheng Zhang, Rong Zhao, Zhizhou Sha, Yong Li, Lei Wang, Ce Hou, Wen Ji, Hao Huang, Yunshan Wan, Jian Yu, Junhao Xia, Yuru Zhang, Chunlei Shi2026-03-09💻 cs

Probing and Bridging Geometry-Interaction Cues for Affordance Reasoning in Vision Foundation Models

Este artículo demuestra que la comprensión de la affordance en los Modelos Fundacionales de Visión se basa en la combinación componible de la percepción geométrica (extraída de modelos como DINO) y la percepción de interacción (derivada de modelos generativos como Flux), permitiendo una estimación de affordance competitiva mediante un enfoque ciego al entrenamiento y sin datos etiquetados.

Qing Zhang, Xuesong Li, Jing Zhang2026-03-09💻 cs

StoryTailor:A Zero-Shot Pipeline for Action-Rich Multi-Subject Visual Narratives

StoryTailor es una pipeline de cero disparos que genera secuencias de imágenes narrativas coherentes y ricas en acciones, preservando la identidad de múltiples sujetos y la continuidad del fondo sin necesidad de ajuste fino, mediante tres módulos sinérgicos que optimizan la atención, la reponderación de valores singulares y la gestión selectiva de la memoria en una sola GPU de 24 GB.

Jinghao Hu, Yuhe Zhang, GuoHua Geng, Kang Li, Han Zhang2026-03-09💻 cs

UniVBench: Towards Unified Evaluation for Video Foundation Models

El artículo presenta UniVBench, un nuevo marco de evaluación unificado que, junto con su sistema de evaluación agéntica (UniV-Eval), mide de forma integral las capacidades de comprensión, generación, edición y reconstrucción de modelos de video fundamentales mediante un conjunto de datos diverso y complejo de 200 videos de alta calidad creados por humanos.

Jianhui Wei, Xiaotian Zhang, Yichen Li, Yuan Wang, Yan Zhang, Ziyi Chen, Zhihang Tang, Wei Xu, Zuozhu Liu2026-03-09💻 cs

Protein Graph Neural Networks for Heterogeneous Cryo-EM Reconstruction

Este trabajo presenta un método basado en redes neuronales de grafos que aprovecha los priores de la estructura proteica para reconstruir con mayor precisión las conformaciones atómicas en la microscopía electrónica criogénica de partícula única heterogénea.

Jonathan Krook, Axel Janson, Joakim Andén + 2 more2026-03-09💻 cs

Denoising as Path Planning: Training-Free Acceleration of Diffusion Models with DPCache

El artículo presenta DPCache, un marco de aceleración sin entrenamiento para modelos de difusión que formula el muestreo como un problema de planificación de ruta global mediante programación dinámica para seleccionar óptimamente los pasos clave, logrando así una aceleración significativa sin sacrificar la calidad de la imagen.

Bowen Cui, Yuanbin Wang, Huajiang Xu, Biaolong Chen, Aixi Zhang, Hao Jiang, Zhengzheng Jin, Xu Liu, Pipei Huang2026-03-09💻 cs

Synthetic Visual Genome 2: Extracting Large-scale Spatio-Temporal Scene Graphs from Videos

Este trabajo presenta Synthetic Visual Genome 2 (SVG2), un dataset masivo de gráficos de escena espaciotemporales en video generado automáticamente, y TRaSER, un modelo que aprovecha este recurso para mejorar significativamente la detección de relaciones y objetos en video, demostrando además que los gráficos de escena explícitos mejoran la precisión en la respuesta a preguntas sobre videos.

Ziqi Gao, Jieyu Zhang, Wisdom Oluchi Ikezogwo, Jae Sung Park, Tario G. You, Daniel Ogbu, Chenhao Zheng, Weikai Huang, Yinuo Yang, Winson Han, Quan Kong, Rajat Saini, Ranjay Krishna2026-03-09💻 cs

Adaptive Dynamic Dehazing via Instruction-Driven and Task-Feedback Closed-Loop Optimization for Diverse Downstream Task Adaptation

Este artículo propone un marco de desvanecimiento de niebla adaptativo y dinámico que utiliza un bucle de optimización cerrado con retroalimentación de tareas e instrucciones textuales para ajustar en tiempo real la eliminación de niebla según las necesidades específicas de diversas tareas posteriores sin necesidad de reentrenamiento.

Yafei Zhang, Shuaitian Song, Huafeng Li, Shujuan Wang, Yu Liu2026-03-09💻 cs

Cross-Scale Pansharpening via ScaleFormer and the PanScale Benchmark

Este trabajo presenta PanScale, el primer conjunto de datos y benchmark a gran escala para la fusión de imágenes multiespectrales y pancromáticas a través de diferentes escalas, junto con ScaleFormer, una arquitectura innovadora que mejora la generalización entre resoluciones mediante el tokenizado de imágenes en secuencias de parches y el uso de codificación posicional rotatoria.

Ke Cao, Xuanhua He, Xueheng Li, Lingting Zhu, Yingying Wang, Ao Ma, Zhanjie Zhang, Man Zhou, Chengjun Xie, Jie Zhang2026-03-09💻 cs

Mobile-VTON: High-Fidelity On-Device Virtual Try-On

El artículo presenta Mobile-VTON, un marco de privacidad que permite la prueba virtual de alta fidelidad de forma totalmente offline en dispositivos móviles mediante una arquitectura modular optimizada y estrategias de distilación, logrando resultados comparables a los sistemas basados en servidores sin necesidad de subir imágenes a la nube.

Zhenchen Wan, Ce Chen, Runqi Lin, Jiaxin Huang, Tianxi Chen, Yanwu Xu, Tongliang Liu, Mingming Gong2026-03-09💻 cs

← Anterior Siguiente →

cs.CV