FireScope: Wildfire Risk Prediction with a Chain-of-Thought Oracle

El artículo presenta FireScope, un marco basado en modelos de lenguaje visual que utiliza razonamiento tipo "cadena de pensamiento" para predecir mapas de riesgo de incendios forestales con alta generalización entre continentes, respaldado por el nuevo conjunto de datos y benchmark FireScope-Bench.

Mario Markov (INSAIT, Sofia University "St. Kliment Ohridski"), Stefan Maria Ailuro (INSAIT, Sofia University "St. Kliment Ohridski"), Luc Van Gool (INSAIT, Sofia University "St. Kliment Ohridski"), Konrad Schindler (ETH Zurich), Danda Pani Paudel (INSAIT, Sofia University "St. Kliment Ohridski")2026-03-09🤖 cs.LG

Learning Latent Transmission and Glare Maps for Lens Veiling Glare Removal

Los autores proponen VeilGen, un modelo generativo no supervisado que estima mapas de transmisión y deslumbramiento latentes para sintetizar datos realistas, y DeVeiler, una red de restauración que utiliza estos mapas para eliminar eficazmente el deslumbramiento por velo en sistemas ópticos simplificados.

Xiaolong Qian, Qi Jiang, Lei Sun, Zongxi Yu, Kailun Yang, Peixuan Wu, Jiacheng Zhou, Yao Gao, Yaoguang Ma, Ming-Hsuan Yang, Kaiwei Wang2026-03-09🔬 physics.optics

EgoCogNav: Cognition-aware Human Egocentric Navigation

El artículo presenta EgoCogNav, un marco de navegación egocéntrica multimodal que predice la incertidumbre percibida y fusiona características de la escena con señales sensoriales para anticipar trayectorias y movimientos de la cabeza, acompañado de la introducción del nuevo conjunto de datos CEN para investigar comportamientos de navegación humana en entornos reales.

Zhiwen Qiu, Ziang Liu, Wenqian Niu, Tapomayukh Bhattacharjee, Saleh Kalantari2026-03-09🤖 cs.LG

SyncMV4D: Synchronized Multi-view Joint Diffusion of Appearance and Motion for Hand-Object Interaction Synthesis

El artículo presenta SyncMV4D, un modelo pionero que genera videos de interacción mano-objeto multivista sincronizados y movimientos 4D mediante un ciclo de retroalimentación que unifica priores visuales, dinámicas de movimiento y geometría multivista para superar las limitaciones de los métodos actuales.

Lingwei Dang, Zonghan Li, Juntong Li, Hongwen Zhang, Liang An, Yebin Liu, Qingyao Wu2026-03-09💻 cs

A method for tissue-mask supported whole-body image registration in the UK Biobank

Este artículo presenta un método de registro de imágenes de resonancia magnética de cuerpo entero para el UK Biobank que utiliza máscaras de tejido adiposo subcutáneo y muscular para mejorar significativamente la precisión de la alineación anatómica y la correlación con datos de salud en comparación con enfoques existentes.

Yasemin Utkueri, Elin Lundström, Håkan Ahlström, Johan Öfverstedt, Joel Kullberg2026-03-09💻 cs

UniTS: Unified Spatio-Temporal Generative Model for Remote Sensing

El artículo presenta UniTS, un modelo generativo unificado basado en flujo de coincidencia y arquitecturas de transformadores difusos que integra tareas clave de teledetección como reconstrucción, eliminación de nubes, detección de cambios y pronóstico, superando a los modelos especializados existentes mediante una generación condicional de alta calidad.

Yuxiang Zhang, Shunlin Liang, Wenyuan Li, Han Ma, Jianglei Xu, Yichuan Ma, Jiangwei Xie, Wei Li, Mengmeng Zhang, Ran Tao, Xiang-Gen Xia2026-03-09💻 cs

Exploiting Spatiotemporal Properties for Efficient Event-Driven Human Pose Estimation

Este trabajo propone un marco basado en nubes de puntos que explota las propiedades espacio-temporales de las cámaras de eventos mediante módulos de convolución y secuenciación, mejorando la estimación de la postura humana con mayor eficiencia computacional y precisión en comparación con los métodos tradicionales.

Haoxian Zhou, Chuanzhi Xu, Langyi Chen, Pengfei Ye, Haodong Chen, Yuk Ying Chung, Qiang Qu2026-03-09🤖 cs.AI

DFIR-DETR: Frequency-Domain Iterative Refinement and Dynamic Feature Aggregation for Small Object Detection

El artículo presenta DFIR-DETR, un detector basado en transformadores que mejora la detección de objetos pequeños mediante la agregación dinámica de características, una pirámide de características con preservación de normas y un refinamiento iterativo en el dominio de la frecuencia para superar las limitaciones de los métodos actuales.

Bo Gao, Jingcheng Tong, Xingsheng Chen, Han Yu, Zichen Li2026-03-09🤖 cs.LG

Modular Neural Image Signal Processing

Este artículo presenta un marco modular de procesamiento de señales de imagen (ISP) basado en aprendizaje profundo que transforma entradas crudas en imágenes de alta calidad, ofreciendo un control total sobre las etapas intermedias para mejorar la escalabilidad, la depuración y la personalización del estilo, todo ello integrado en una herramienta interactiva que permite re-renderizado ilimitado.

Mahmoud Afifi, Zhongling Wang, Ran Zhang, Michael S. Brown2026-03-09💻 cs

A Novel Patch-Based TDA Approach for Computed Tomography Imaging

Este estudio presenta un nuevo enfoque de análisis de datos topológicos (TDA) basado en parches para imágenes de tomografía computarizada que supera a los métodos tradicionales en precisión y eficiencia computacional, ofreciendo además un paquete de Python para facilitar su implementación.

Dashti A. Ali, Aras T. Asaad, Jacob J. Peoples, Mohammad Hamghalam, Natalie Gangai, Richard K. G. Do, Alice C. Wei, Amber L. Simpson2026-03-09🤖 cs.LG

Towards Scalable Pre-training of Visual Tokenizers for Generation

El artículo presenta VTP, un marco unificado de pre-entrenamiento para tokenizadores visuales que, al optimizar conjuntamente pérdidas de contraste, auto-supervisadas y de reconstrucción, resuelve el problema de escalado en la generación al demostrar que la comprensión semántica es clave para lograr una mejora significativa en el rendimiento generativo a medida que aumenta la inversión computacional.

Jingfeng Yao, Yuda Song, Yucong Zhou, Xinggang Wang2026-03-09💻 cs

Pretraining Frame Preservation for Lightweight Autoregressive Video History Embedding

Este artículo presenta un codificador de historial ligero y preentrenado que comprime largas secuencias de video en incrustaciones cortas, logrando una consistencia de contenido comparable a métodos más pesados mediante un enfoque de preentrenamiento con consultas de cuadros y un ajuste fino para la generación autoregresiva.

Lvmin Zhang, Shengqu Cai, Muyang Li, Chong Zeng, Beijia Lu, Anyi Rao, Song Han, Gordon Wetzstein, Maneesh Agrawala2026-03-09💻 cs

Spatial4D-Bench: A Versatile 4D Spatial Intelligence Benchmark

Este trabajo presenta Spatial4D-Bench, un extenso y versátil benchmark de inteligencia espacial 4D compuesto por 40.000 pares de preguntas y respuestas que evalúa la capacidad de razonamiento de los Modelos de Lenguaje Multimodales (MLLMs), revelando sus limitaciones actuales en tareas complejas como la planificación de rutas y el razonamiento físico.

Pan Wang, Yang Liu, Guile Wu, Eduardo R. Corral-Soto, Chengjie Huang, Binbin Xu, Dongfeng Bai, Xu Yan, Yuan Ren, Xingxin Chen, Yizhe Wu, Tao Huang, Wenjun Wan, Xin Wu, Pei Zhou, Xuyang Dai, Kangbo Lv, Hongbo Zhang, Yosef Fried, Aixue Ye, Bailan Feng, Zhenyu Chen, Zhen Li, Yingcong Chen, Yiyi Liao, Bingbing Liu2026-03-09💻 cs