cs.CV artículos | Gist.Science

FunnyNodules: A Customizable Medical Dataset Tailored for Evaluating Explainable AI

El artículo presenta FunnyNodules, un conjunto de datos sintético y totalmente personalizable de nódulos pulmonares con anotaciones densas y reglas de decisión controlables, diseñado para evaluar y desarrollar modelos de IA explicable que aprendan a razonar correctamente basándose en atributos visuales específicos.

Luisa Gallée, Yiheng Xiong, Meinrad Beer, Michael Götz2026-03-09💻 cs

FireScope: Wildfire Risk Prediction with a Chain-of-Thought Oracle

El artículo presenta FireScope, un marco basado en modelos de lenguaje visual que utiliza razonamiento tipo "cadena de pensamiento" para predecir mapas de riesgo de incendios forestales con alta generalización entre continentes, respaldado por el nuevo conjunto de datos y benchmark FireScope-Bench.

Mario Markov (INSAIT, Sofia University "St. Kliment Ohridski"), Stefan Maria Ailuro (INSAIT, Sofia University "St. Kliment Ohridski"), Luc Van Gool (INSAIT, Sofia University "St. Kliment Ohridski"), Konrad Schindler (ETH Zurich), Danda Pani Paudel (INSAIT, Sofia University "St. Kliment Ohridski")2026-03-09🤖 cs.LG

Learning Latent Transmission and Glare Maps for Lens Veiling Glare Removal

Los autores proponen VeilGen, un modelo generativo no supervisado que estima mapas de transmisión y deslumbramiento latentes para sintetizar datos realistas, y DeVeiler, una red de restauración que utiliza estos mapas para eliminar eficazmente el deslumbramiento por velo en sistemas ópticos simplificados.

Xiaolong Qian, Qi Jiang, Lei Sun, Zongxi Yu, Kailun Yang, Peixuan Wu, Jiacheng Zhou, Yao Gao, Yaoguang Ma, Ming-Hsuan Yang, Kaiwei Wang2026-03-09🔬 physics.optics

UAM: A Unified Attention-Mamba Backbone of Multimodal Framework for Tumor Cell Classification

Este artículo presenta UAM, un nuevo marco multimodal basado en un esqueleto unificado de Atención-Mamba que supera a los modelos fundacionales actuales al mejorar la precisión en la clasificación de células tumorales y la segmentación de tumores mediante una arquitectura flexible que elimina la necesidad de ajuste manual de proporciones.

Taixi Chen, Jingyun Chen, Nancy Guo2026-03-09💻 cs

EgoCogNav: Cognition-aware Human Egocentric Navigation

El artículo presenta EgoCogNav, un marco de navegación egocéntrica multimodal que predice la incertidumbre percibida y fusiona características de la escena con señales sensoriales para anticipar trayectorias y movimientos de la cabeza, acompañado de la introducción del nuevo conjunto de datos CEN para investigar comportamientos de navegación humana en entornos reales.

Zhiwen Qiu, Ziang Liu, Wenqian Niu, Tapomayukh Bhattacharjee, Saleh Kalantari2026-03-09🤖 cs.LG

SyncMV4D: Synchronized Multi-view Joint Diffusion of Appearance and Motion for Hand-Object Interaction Synthesis

El artículo presenta SyncMV4D, un modelo pionero que genera videos de interacción mano-objeto multivista sincronizados y movimientos 4D mediante un ciclo de retroalimentación que unifica priores visuales, dinámicas de movimiento y geometría multivista para superar las limitaciones de los métodos actuales.

Lingwei Dang, Zonghan Li, Juntong Li, Hongwen Zhang, Liang An, Yebin Liu, Qingyao Wu2026-03-09💻 cs

Reversible Inversion for Training-Free Exemplar-guided Image Editing

Este artículo presenta ReInversion, un método de edición de imágenes guiado por ejemplos que, al ser libre de entrenamiento y utilizar un proceso de inversión reversible junto con una estrategia de desruido selectivo, logra un rendimiento superior con el menor costo computacional.

Yuke Li, Lianli Gao, Ji Zhang, Pengpeng Zeng, Lichuan Xiang, Hongkai Wen, Heng Tao Shen, Jingkuan Song2026-03-09💻 cs

A method for tissue-mask supported whole-body image registration in the UK Biobank

Este artículo presenta un método de registro de imágenes de resonancia magnética de cuerpo entero para el UK Biobank que utiliza máscaras de tejido adiposo subcutáneo y muscular para mejorar significativamente la precisión de la alineación anatómica y la correlación con datos de salud en comparación con enfoques existentes.

Yasemin Utkueri, Elin Lundström, Håkan Ahlström, Johan Öfverstedt, Joel Kullberg2026-03-09💻 cs

UniTS: Unified Spatio-Temporal Generative Model for Remote Sensing

El artículo presenta UniTS, un modelo generativo unificado basado en flujo de coincidencia y arquitecturas de transformadores difusos que integra tareas clave de teledetección como reconstrucción, eliminación de nubes, detección de cambios y pronóstico, superando a los modelos especializados existentes mediante una generación condicional de alta calidad.

Yuxiang Zhang, Shunlin Liang, Wenyuan Li, Han Ma, Jianglei Xu, Yichuan Ma, Jiangwei Xie, Wei Li, Mengmeng Zhang, Ran Tao, Xiang-Gen Xia2026-03-09💻 cs

Exploiting Spatiotemporal Properties for Efficient Event-Driven Human Pose Estimation

Este trabajo propone un marco basado en nubes de puntos que explota las propiedades espacio-temporales de las cámaras de eventos mediante módulos de convolución y secuenciación, mejorando la estimación de la postura humana con mayor eficiencia computacional y precisión en comparación con los métodos tradicionales.

Haoxian Zhou, Chuanzhi Xu, Langyi Chen, Pengfei Ye, Haodong Chen, Yuk Ying Chung, Qiang Qu2026-03-09🤖 cs.AI

DFIR-DETR: Frequency-Domain Iterative Refinement and Dynamic Feature Aggregation for Small Object Detection

El artículo presenta DFIR-DETR, un detector basado en transformadores que mejora la detección de objetos pequeños mediante la agregación dinámica de características, una pirámide de características con preservación de normas y un refinamiento iterativo en el dominio de la frecuencia para superar las limitaciones de los métodos actuales.

Bo Gao, Jingcheng Tong, Xingsheng Chen, Han Yu, Zichen Li2026-03-09🤖 cs.LG

Fast-BEV++: Fast by Algorithm, Deployable by Design

Fast-BEV++ es un marco de percepción BEV que resuelve la compensación entre precisión y eficiencia mediante un diseño algorítmico y de despliegue optimizado, logrando un nuevo estado del arte en el benchmark nuScenes con 0.488 NDS y más de 134 FPS sin depender de kernels personalizados.

Yuanpeng Chen, Hui Song, Sheng Yang, Wei Tao, Shanhui Mo, Shuang Zhang, Xiao Hua, Tiankun Zhao2026-03-09💻 cs

Uncertainty-Aware Subset Selection for Robust Visual Explainability under Distribution Shifts

Este artículo presenta un marco que combina la selección de subconjuntos submodulares con la estimación de incertidumbre basada en gradientes para mejorar la robustez y fidelidad de las explicaciones visuales bajo cambios de distribución, sin requerir entrenamiento adicional.

Madhav Gupta, Vishak Prasad C, Ganesh Ramakrishnan2026-03-09🤖 cs.LG

Photo3D: Advancing Photorealistic 3D Generation through Structure-Aligned Detail Enhancement

El artículo presenta Photo3D, un marco que mejora la generación 3D fotorrealista mediante el uso de imágenes generadas por IA y una síntesis multi-vista alineada estructuralmente para superar la falta de datos de alta calidad y preservar tanto la consistencia estructural como los detalles realistas.

Xinyue Liang, Zhinyuan Ma, Lingchen Sun, Yanjun Guo, Lei Zhang2026-03-09💻 cs

Modular Neural Image Signal Processing

Este artículo presenta un marco modular de procesamiento de señales de imagen (ISP) basado en aprendizaje profundo que transforma entradas crudas en imágenes de alta calidad, ofreciendo un control total sobre las etapas intermedias para mejorar la escalabilidad, la depuración y la personalización del estilo, todo ello integrado en una herramienta interactiva que permite re-renderizado ilimitado.

Mahmoud Afifi, Zhongling Wang, Ran Zhang, Michael S. Brown2026-03-09💻 cs

A Novel Patch-Based TDA Approach for Computed Tomography Imaging

Este estudio presenta un nuevo enfoque de análisis de datos topológicos (TDA) basado en parches para imágenes de tomografía computarizada que supera a los métodos tradicionales en precisión y eficiencia computacional, ofreciendo además un paquete de Python para facilitar su implementación.

Dashti A. Ali, Aras T. Asaad, Jacob J. Peoples, Mohammad Hamghalam, Natalie Gangai, Richard K. G. Do, Alice C. Wei, Amber L. Simpson2026-03-09🤖 cs.LG

Towards Scalable Pre-training of Visual Tokenizers for Generation

El artículo presenta VTP, un marco unificado de pre-entrenamiento para tokenizadores visuales que, al optimizar conjuntamente pérdidas de contraste, auto-supervisadas y de reconstrucción, resuelve el problema de escalado en la generación al demostrar que la comprensión semántica es clave para lograr una mejora significativa en el rendimiento generativo a medida que aumenta la inversión computacional.

Jingfeng Yao, Yuda Song, Yucong Zhou, Xinggang Wang2026-03-09💻 cs

CASA: Cross-Attention over Self-Attention for Efficient Vision-Language Fusion

El artículo presenta CASA, un enfoque que reinvestiga y demuestra la eficacia de la atención cruzada para la fusión visión-lenguaje, logrando un rendimiento competitivo con los métodos de inserción de tokens mientras reduce significativamente el costo computacional y la latencia en aplicaciones de video en tiempo real.

Moritz Böhle, Amélie Royer, Juliette Marrie, Edouard Grave, Patrick Pérez2026-03-09🤖 cs.AI

Pretraining Frame Preservation for Lightweight Autoregressive Video History Embedding

Este artículo presenta un codificador de historial ligero y preentrenado que comprime largas secuencias de video en incrustaciones cortas, logrando una consistencia de contenido comparable a métodos más pesados mediante un enfoque de preentrenamiento con consultas de cuadros y un ajuste fino para la generación autoregresiva.

Lvmin Zhang, Shengqu Cai, Muyang Li, Chong Zeng, Beijia Lu, Anyi Rao, Song Han, Gordon Wetzstein, Maneesh Agrawala2026-03-09💻 cs

Spatial4D-Bench: A Versatile 4D Spatial Intelligence Benchmark

Este trabajo presenta Spatial4D-Bench, un extenso y versátil benchmark de inteligencia espacial 4D compuesto por 40.000 pares de preguntas y respuestas que evalúa la capacidad de razonamiento de los Modelos de Lenguaje Multimodales (MLLMs), revelando sus limitaciones actuales en tareas complejas como la planificación de rutas y el razonamiento físico.

Pan Wang, Yang Liu, Guile Wu, Eduardo R. Corral-Soto, Chengjie Huang, Binbin Xu, Dongfeng Bai, Xu Yan, Yuan Ren, Xingxin Chen, Yizhe Wu, Tao Huang, Wenjun Wan, Xin Wu, Pei Zhou, Xuyang Dai, Kangbo Lv, Hongbo Zhang, Yosef Fried, Aixue Ye, Bailan Feng, Zhenyu Chen, Zhen Li, Yingcong Chen, Yiyi Liao, Bingbing Liu2026-03-09💻 cs

← Anterior Siguiente →