FusionRegister: Every Infrared and Visible Image Fusion Deserves Registration

El artículo presenta FusionRegister, un método general de registro guiado por priores visuales para la fusión de imágenes infrarrojas y visibles que mejora la eficiencia y robustez al aprender representaciones de desalineación en lugar de forzar una alineación completa, logrando así una integración fluida con diversos métodos de fusión existentes.

Congcong Bian, Haolong Ma, Hui Li, Zhongwei Shen, Xiaoqing Luo, Xiaoning Song, Xiao-Jun Wu2026-03-10💻 cs

UniUncer: Unified Dynamic Static Uncertainty for End to End Driving

El artículo presenta UniUncer, un marco unificado y ligero para la conducción de extremo a extremo que estima y aprovecha la incertidumbre tanto de elementos estáticos como dinámicos mediante regresores probabilísticos y una puerta adaptativa, logrando mejoras significativas en la precisión de la trayectoria y la seguridad sin sacrificar el rendimiento computacional.

Yu Gao, Jijun Wang, Zongzheng Zhang, Anqing Jiang, Yiru Wang, Yuwen Heng, Shuo Wang, Hao Sun, Zhangfeng Hu, Hao Zhao2026-03-10💻 cs

Learning Context-Adaptive Motion Priors for Masked Motion Diffusion Models with Efficient Kinematic Attention Aggregation

El artículo presenta el Modelo de Difusión de Movimiento Enmascarado (MMDM), un marco generativo basado en difusión que utiliza un mecanismo de Agregación de Atención Cinemática para aprender priores de movimiento adaptativos al contexto y reconstruir eficazmente datos de movimiento incompletos o ruidosos mediante la integración de reconstrucciones de alta calidad parciales.

Junkun Jiang, Jie Chen, Ho Yin Au, Jingyu Xiang2026-03-10💻 cs

3ViewSense: Spatial and Mental Perspective Reasoning from Orthographic Views in Vision-Language Models

El artículo presenta 3ViewSense, un marco que cierra la brecha de inteligencia espacial en los modelos de visión y lenguaje al utilizar proyecciones ortográficas y un mecanismo de "simulación y razonamiento" para construir representaciones mentales 3D coherentes a partir de vistas 2D, mejorando significativamente tareas como el conteo de bloques y el razonamiento espacial.

Shaoxiong Zhan, Yanlin Lai, Zheng Liu, Hai Lin, Shen Li, Xiaodong Cai, Zijian Lin, Wen Huang, Hai-Tao Zheng2026-03-10💬 cs.CL

AR2-4FV: Anchored Referring and Re-identification for Long-Term Grounding in Fixed-View Videos

El artículo presenta AR2-4FV, un método que mejora la referencia y reidentificación a largo plazo en videos de vista fija mediante un banco de anclajes de fondo estático que actúa como memoria semántica persistente, logrando mejoras significativas en las tasas de recaptura y reduciendo la latencia sin depender de la visibilidad inicial del objetivo ni de variaciones de apariencia.

Teng Yan, Yihan Liu, Jiongxu Chen, Teng Wang, Jiaqi Li, Bingzhuo Zhong2026-03-10💻 cs

DECADE: A Temporally-Consistent Unsupervised Diffusion Model for Enhanced Rb-82 Dynamic Cardiac PET Image Denoising

El artículo presenta DECADE, un marco de difusión no supervisado que mejora la desruidificación de imágenes PET cardíacas dinámicas con Rb-82 al garantizar consistencia temporal y preservar la precisión cuantitativa sin necesidad de datos de entrenamiento emparejados.

Yinchi Zhou, Liang Guo, Huidong Xie, Yuexi Du, Ashley Wang, Menghua Xia, Tian Yu, Ramesh Fazzone-Chettiar, Christopher Weyman, Bruce Spottiswoode, Vladimir Panin, Kuangyu Shi, Edward J. Miller, Attila Feher, Albert J. Sinusas, Nicha C. Dvornek, Chi Liu2026-03-10💻 cs

MedQ-Deg: A Multidimensional Benchmark for Evaluating MLLMs Across Medical Image Quality Degradations

El artículo presenta MedQ-Deg, un nuevo benchmark multidimensional que evalúa el rendimiento y la calibración de la confianza de modelos multimodales grandes (MLLM) médicos ante 18 tipos de degradación de imágenes, revelando que su precisión disminuye sistemáticamente con la severidad de la degradación mientras mantienen una confianza excesivamente alta, un fenómeno denominado "Efecto Dunning-Kruger de la IA".

Jiyao Liu, Junzhi Ning, Chenglong Ma, Wanying Qu, Jianghan Shen, Siqi Luo, Jinjie Wei, Jin Ye, Pengze Li, Tianbin Li, Jiashi Lin, Hongming Shan, Xinzhe Luo, Xiaohong Liu, Lihao Liu, Junjun He, Ningsheng Xu2026-03-10💻 cs

Geometric Knowledge-Assisted Federated Dual Knowledge Distillation Approach Towards Remote Sensing Satellite Imagery

El artículo presenta GK-FedDKD, un marco de aprendizaje federado que utiliza la distilación de conocimiento dual y el conocimiento geométrico global para superar los desafíos de heterogeneidad en el análisis de imágenes satelitales, logrando un rendimiento superior al estado del arte en múltiples conjuntos de datos.

Luyao Zou, Fei Pan, Jueying Li, Yan Kyaw Tun, Apurba Adhikary, Zhu Han, Hayoung Oh2026-03-10💻 cs

OrdinalBench: A Benchmark Dataset for Diagnosing Generalization Limits in Ordinal Number Understanding of Vision-Language Models

El artículo presenta OrdinalBench, un nuevo conjunto de datos y marco de evaluación estandarizado que diagnostica las limitaciones de generalización en la comprensión de números ordinales de los Modelos Visión-Lenguaje, revelando mediante 39.000 pares de preguntas y respuestas que, aunque estos modelos obtienen buenos resultados en tareas estándar, sufren un deterioro significativo al identificar objetos en posiciones ordinales extremas o en trayectorias complejas.

Yusuke Tozaki, Hisashi Miyamori2026-03-10💻 cs

SGI: Structured 2D Gaussians for Efficient and Compact Large Image Representation

El artículo propone SGI, un marco compacto y eficiente que representa imágenes de alta resolución mediante Gaussians 2D estructurados generados a partir de semillas y MLPs, logrando una compresión significativamente mayor y una convergencia más rápida que los métodos anteriores sin sacrificar la fidelidad de la imagen.

Zixuan Pan, Kaiyuan Tang, Jun Xia, Yifan Qin, Lin Gu, Chaoli Wang, Jianxu Chen, Yiyu Shi2026-03-10💻 cs

Tracking Phenological Status and Ecological Interactions in a Hawaiian Cloud Forest Understory using Low-Cost Camera Traps and Visual Foundation Models

Este estudio utiliza trampas fotográficas de bajo costo y modelos de visión fundamentales en un bosque nuboso de Hawái para monitorear la fenología de las plantas y sus interacciones ecológicas a nivel individual, revelando tendencias temporales que los métodos tradicionales no pueden detectar.

Luke Meyers, Anirudh Potlapally, Yuyan Chen, Mike Long, Tanya Berger-Wolf, Hari Subramoni, Remi Megret, Daniel Rubenstein2026-03-10💻 cs