cs.CV artículos | Gist.Science

FusionRegister: Every Infrared and Visible Image Fusion Deserves Registration

El artículo presenta FusionRegister, un método general de registro guiado por priores visuales para la fusión de imágenes infrarrojas y visibles que mejora la eficiencia y robustez al aprender representaciones de desalineación en lugar de forzar una alineación completa, logrando así una integración fluida con diversos métodos de fusión existentes.

Congcong Bian, Haolong Ma, Hui Li, Zhongwei Shen, Xiaoqing Luo, Xiaoning Song, Xiao-Jun Wu2026-03-10💻 cs

UniUncer: Unified Dynamic Static Uncertainty for End to End Driving

El artículo presenta UniUncer, un marco unificado y ligero para la conducción de extremo a extremo que estima y aprovecha la incertidumbre tanto de elementos estáticos como dinámicos mediante regresores probabilísticos y una puerta adaptativa, logrando mejoras significativas en la precisión de la trayectoria y la seguridad sin sacrificar el rendimiento computacional.

Yu Gao, Jijun Wang, Zongzheng Zhang, Anqing Jiang, Yiru Wang, Yuwen Heng, Shuo Wang, Hao Sun, Zhangfeng Hu, Hao Zhao2026-03-10💻 cs

FrameVGGT: Frame Evidence Rolling Memory for streaming VGGT

El artículo presenta FrameVGGT, un marco de memoria explícita impulsado por cuadros que aborda el crecimiento ilimitado de la caché en transformadores de geometría visual en streaming mediante la agrupación de contribuciones de cuadros en bloques coherentes, logrando así un equilibrio favorable entre precisión y memoria limitada para tareas de percepción 3D a largo plazo.

Zhisong Xu, Takeshi Oishi2026-03-10💻 cs

RoboPCA: Pose-centered Affordance Learning from Human Demonstrations for Robot Manipulation

El artículo presenta RoboPCA, un marco de aprendizaje de affordances centrado en la pose que, mediante el pipeline de datos Human2Afford, predice conjuntamente regiones de contacto y orientaciones adecuadas para la manipulación robótica a partir de demostraciones humanas, superando a los métodos existentes en generalización y consistencia.

Zhanqi Xiao, Ruiping Wang, Xilin Chen2026-03-10💻 cs

Compressed-Domain-Aware Online Video Super-Resolution

El artículo presenta CDA-VSR, una red de super-resolución de video en línea que aprovecha información del dominio comprimido (vectores de movimiento, mapas de residuos y tipos de cuadro) para lograr un equilibrio óptimo entre calidad y eficiencia, superando a los métodos actuales en velocidad de inferencia y rendimiento en el conjunto de datos REDS4.

Yuhang Wang, Hai Li, Shujuan Hou, Zhetao Dong, Xiaoyao Yang2026-03-10💻 cs

Learning Context-Adaptive Motion Priors for Masked Motion Diffusion Models with Efficient Kinematic Attention Aggregation

El artículo presenta el Modelo de Difusión de Movimiento Enmascarado (MMDM), un marco generativo basado en difusión que utiliza un mecanismo de Agregación de Atención Cinemática para aprender priores de movimiento adaptativos al contexto y reconstruir eficazmente datos de movimiento incompletos o ruidosos mediante la integración de reconstrucciones de alta calidad parciales.

Junkun Jiang, Jie Chen, Ho Yin Au, Jingyu Xiang2026-03-10💻 cs

TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward

El artículo presenta TDM-R1, un nuevo paradigma de aprendizaje por refuerzo que permite entrenar modelos de difusión de pocos pasos utilizando recompensas no diferenciables mediante la descomposición del proceso en aprendizaje de recompensas sustitutas y generación, logrando así un rendimiento superior en diversas métricas de calidad y alineación.

Yihong Luo, Tianyang Hu, Weijian Luo, Jing Tang2026-03-10💻 cs

PARSE: Part-Aware Relational Spatial Modeling

El paper presenta PARSE, un marco que modela las interacciones a nivel de partes mediante un Grafo de Ensamblaje Centrado en Partes (PAG) para resolver configuraciones espaciales físicamente consistentes, lo que permite crear el dataset PARSE-10K y mejorar tanto el razonamiento de layouts como la generación de escenas 3D realistas.

Yinuo Bai, Peijun Xu, Kuixiang Shao, Yuyang Jiao, Jingxuan Zhang, Kaixin Yao, Jiayuan Gu, Jingyi Yu2026-03-10💻 cs

3ViewSense: Spatial and Mental Perspective Reasoning from Orthographic Views in Vision-Language Models

El artículo presenta 3ViewSense, un marco que cierra la brecha de inteligencia espacial en los modelos de visión y lenguaje al utilizar proyecciones ortográficas y un mecanismo de "simulación y razonamiento" para construir representaciones mentales 3D coherentes a partir de vistas 2D, mejorando significativamente tareas como el conteo de bloques y el razonamiento espacial.

Shaoxiong Zhan, Yanlin Lai, Zheng Liu, Hai Lin, Shen Li, Xiaodong Cai, Zijian Lin, Wen Huang, Hai-Tao Zheng2026-03-10💬 cs.CL

AR2-4FV: Anchored Referring and Re-identification for Long-Term Grounding in Fixed-View Videos

El artículo presenta AR2-4FV, un método que mejora la referencia y reidentificación a largo plazo en videos de vista fija mediante un banco de anclajes de fondo estático que actúa como memoria semántica persistente, logrando mejoras significativas en las tasas de recaptura y reduciendo la latencia sin depender de la visibilidad inicial del objetivo ni de variaciones de apariencia.

Teng Yan, Yihan Liu, Jiongxu Chen, Teng Wang, Jiaqi Li, Bingzhuo Zhong2026-03-10💻 cs

DECADE: A Temporally-Consistent Unsupervised Diffusion Model for Enhanced Rb-82 Dynamic Cardiac PET Image Denoising

El artículo presenta DECADE, un marco de difusión no supervisado que mejora la desruidificación de imágenes PET cardíacas dinámicas con Rb-82 al garantizar consistencia temporal y preservar la precisión cuantitativa sin necesidad de datos de entrenamiento emparejados.

Yinchi Zhou, Liang Guo, Huidong Xie, Yuexi Du, Ashley Wang, Menghua Xia, Tian Yu, Ramesh Fazzone-Chettiar, Christopher Weyman, Bruce Spottiswoode, Vladimir Panin, Kuangyu Shi, Edward J. Miller, Attila Feher, Albert J. Sinusas, Nicha C. Dvornek, Chi Liu2026-03-10💻 cs

MedQ-Deg: A Multidimensional Benchmark for Evaluating MLLMs Across Medical Image Quality Degradations

El artículo presenta MedQ-Deg, un nuevo benchmark multidimensional que evalúa el rendimiento y la calibración de la confianza de modelos multimodales grandes (MLLM) médicos ante 18 tipos de degradación de imágenes, revelando que su precisión disminuye sistemáticamente con la severidad de la degradación mientras mantienen una confianza excesivamente alta, un fenómeno denominado "Efecto Dunning-Kruger de la IA".

Jiyao Liu, Junzhi Ning, Chenglong Ma, Wanying Qu, Jianghan Shen, Siqi Luo, Jinjie Wei, Jin Ye, Pengze Li, Tianbin Li, Jiashi Lin, Hongming Shan, Xinzhe Luo, Xiaohong Liu, Lihao Liu, Junjun He, Ningsheng Xu2026-03-10💻 cs

Geometric Knowledge-Assisted Federated Dual Knowledge Distillation Approach Towards Remote Sensing Satellite Imagery

El artículo presenta GK-FedDKD, un marco de aprendizaje federado que utiliza la distilación de conocimiento dual y el conocimiento geométrico global para superar los desafíos de heterogeneidad en el análisis de imágenes satelitales, logrando un rendimiento superior al estado del arte en múltiples conjuntos de datos.

Luyao Zou, Fei Pan, Jueying Li, Yan Kyaw Tun, Apurba Adhikary, Zhu Han, Hayoung Oh2026-03-10💻 cs

Parameterized Brushstroke Style Transfer

Este artículo presenta un método de transferencia de estilo que representa las imágenes en el dominio de las pinceladas en lugar del dominio de píxeles RGB, logrando una mejora visual más natural y fiel a la creación artística real.

Uma Meleti, Siyu Huang2026-03-10💻 cs

OrdinalBench: A Benchmark Dataset for Diagnosing Generalization Limits in Ordinal Number Understanding of Vision-Language Models

El artículo presenta OrdinalBench, un nuevo conjunto de datos y marco de evaluación estandarizado que diagnostica las limitaciones de generalización en la comprensión de números ordinales de los Modelos Visión-Lenguaje, revelando mediante 39.000 pares de preguntas y respuestas que, aunque estos modelos obtienen buenos resultados en tareas estándar, sufren un deterioro significativo al identificar objetos en posiciones ordinales extremas o en trayectorias complejas.

Yusuke Tozaki, Hisashi Miyamori2026-03-10💻 cs

SGI: Structured 2D Gaussians for Efficient and Compact Large Image Representation

El artículo propone SGI, un marco compacto y eficiente que representa imágenes de alta resolución mediante Gaussians 2D estructurados generados a partir de semillas y MLPs, logrando una compresión significativamente mayor y una convergencia más rápida que los métodos anteriores sin sacrificar la fidelidad de la imagen.

Zixuan Pan, Kaiyuan Tang, Jun Xia, Yifan Qin, Lin Gu, Chaoli Wang, Jianxu Chen, Yiyu Shi2026-03-10💻 cs

4DRC-OCC: Robust Semantic Occupancy Prediction Through Fusion of 4D Radar and Camera

Este trabajo presenta 4DRC-OCC, el primer estudio que fusiona datos de radar 4D y cámaras para lograr una predicción robusta de ocupación semántica 3D en condiciones adversas, complementada por un nuevo conjunto de datos etiquetado automáticamente que reduce la dependencia de la anotación manual.

David Ninfa, Andras Palffy, Holger Caesar2026-03-10💻 cs

MWM: Mobile World Models for Action-Conditioned Consistent Prediction

El artículo presenta MWM, un modelo de mundo móvil que mejora la navegación basada en planificación mediante un marco de entrenamiento en dos etapas y una destilación consistente con la inferencia para garantizar coherencia en las predicciones condicionadas a la acción y eficiencia en la ejecución.

Han Yan, Zishang Xiang, Zeyu Zhang, Hao Tang2026-03-10💻 cs

HybridStitch: Pixel and Timestep Level Model Stitching for Diffusion Acceleration

El artículo presenta HybridStitch, un nuevo paradigma para la generación de imágenes texto-a-imagen que acelera los modelos de difusión dividiendo la imagen en regiones simples y complejas para procesarlas simultáneamente con modelos pequeños y grandes, logrando una aceleración de 1,83 veces en Stable Diffusion 3.

Desen Sun, Jason Hon, Jintao Zhang, Sihang Liu2026-03-10💻 cs

Tracking Phenological Status and Ecological Interactions in a Hawaiian Cloud Forest Understory using Low-Cost Camera Traps and Visual Foundation Models

Este estudio utiliza trampas fotográficas de bajo costo y modelos de visión fundamentales en un bosque nuboso de Hawái para monitorear la fenología de las plantas y sus interacciones ecológicas a nivel individual, revelando tendencias temporales que los métodos tradicionales no pueden detectar.

Luke Meyers, Anirudh Potlapally, Yuyan Chen, Mike Long, Tanya Berger-Wolf, Hari Subramoni, Remi Megret, Daniel Rubenstein2026-03-10💻 cs

← Anterior Siguiente →