cs.CV artículos | Gist.Science

Keeping the Evidence Chain: Semantic Evidence Allocation for Training-Free Token Pruning in Video Temporal Grounding

El artículo presenta SemVID, un marco de poda de tokens sin entrenamiento diseñado específicamente para la localización temporal en videos que, mediante la asignación semántica de evidencia basada en la retención de información crítica y la fuerza de conectividad, logra un equilibrio óptimo entre precisión y eficiencia al reducir drásticamente el número de tokens visuales necesarios.

Jiaqi Li, Shuntian Zheng, Yixian Shen, Jia-Hong Huang, Xiaoman Lu, Minzhe Ni, Yu Guan2026-03-09💻 cs

Gabor Primitives for Accelerated Cardiac Cine MRI Reconstruction

Este artículo propone el uso de primitivas de Gabor, que modulan envolventes gaussianas con exponenciales complejas para representar eficientemente tanto estructuras suaves como bordes agudos en resonancia magnética cardíaca acelerada, superando a los métodos existentes mediante una representación continua y físicamente interpretable que explota la redundancia espaciotemporal.

Wenqi Huang, Veronika Spieker, Nil Stolt-Ansó, Natascha Niessen, Maik Dannecker, Sevgi Gokce Kafali, Sila Kurugol, Julia A. Schnabel, Daniel Rueckert2026-03-09💻 cs

OWL: A Novel Approach to Machine Perception During Motion

El artículo presenta OWL, un enfoque analítico novedoso que permite la percepción 3D y la reconstrucción de escenas en tiempo real para sistemas autónomos utilizando únicamente señales visuales de movimiento, sin requerir conocimiento previo del entorno o del movimiento de la cámara.

Daniel Raviv, Juan D. Yepes2026-03-09💻 cs

Longitudinal Lesion Inpainting in Brain MRI via 3D Region Aware Diffusion

Este trabajo presenta un nuevo marco de inpainting longitudinal pseudo-3D basado en modelos de difusión que, al integrar contexto temporal y un mecanismo de atención regional, supera a los métodos existentes en fidelidad perceptual, estabilidad temporal y eficiencia computacional para el análisis de resonancias magnéticas cerebrales con lesiones evolutivas.

Zahra Karimaghaloo, Dumitru Fetco, Haz-Edine Assemlal, Hassan Rivaz, Douglas L. Arnold2026-03-09🤖 cs.AI

MultiHaystack: Benchmarking Multimodal Retrieval and Reasoning over 40K Images, Videos, and Documents

El artículo presenta MultiHaystack, el primer benchmark diseñado para evaluar la recuperación y el razonamiento multimodal a gran escala sobre un corpus heterogéneo de más de 46.000 documentos, imágenes y videos, revelando que el rendimiento de los modelos de lenguaje multimodales cae drásticamente cuando deben localizar evidencia relevante en lugar de recibirlos directamente.

Dannong Xu, Zhongyu Yang, Jun Chen, Yingfang Yuan, Ming Hu, Lei Sun, Luc Van Gool, Danda Pani Paudel, Chun-Mei Feng2026-03-09💻 cs

Interpretable Perception and Reasoning for Audiovisual Geolocation

Este artículo presenta un marco de geolocalización audiovisual interpretable que supera las limitaciones de los enfoques unimodales mediante un nuevo conjunto de datos global (AVG) y un sistema de tres etapas que descompone el audio en "átomos acústicos", los integra con características visuales mediante razonamiento multimodal y predice la ubicación en una esfera mediante flujo de emparejamiento Riemanniano.

Yiyang Su, Xiaoming Liu2026-03-09💻 cs

Any to Full: Prompting Depth Anything for Depth Completion in One Stage

El artículo presenta Any2Full, un marco unificado de una sola etapa que adapta un modelo de estimación de profundidad monocromática preentrenado mediante un codificador de prompts consciente de la escala para lograr una completación de profundidad precisa, robusta y eficiente sin depender de alineaciones explícitas ni estrategias de dos etapas.

Zhiyuan Zhou, Ruofeng Liu, Taichi Liu, Weijian Zuo, Shanshan Wang, Zhiqing Hong, Desheng Zhang2026-03-09💻 cs

Interpretable Motion Artificat Detection in structural Brain MRI

Este trabajo propone un marco ligero e interpretable que extiende los histogramas discriminativos de magnitud de gradiente a espacios tridimensionales para detectar artefactos de movimiento en resonancias magnéticas cerebrales estructurales, logrando una alta precisión y generalización en sitios no vistos mediante una estrategia de decisión paralela que combina características 2D y 3D.

Naveetha Nithianandam, Prabhjot Kaur, Anil Kumar Sao2026-03-09💻 cs

Unlocking ImageNet's Multi-Object Nature: Automated Large-Scale Multilabel Annotation

Este trabajo presenta un pipeline automatizado que convierte el conjunto de entrenamiento de ImageNet en un dataset multietiqueta sin anotaciones humanas, logrando mejoras significativas en la precisión de clasificación y la transferencia a tareas posteriores al descubrir objetos mediante Vision Transformers auto-supervisados.

Junyu Chen, Md Yousuf Harun, Christopher Kanan2026-03-09💻 cs

From Phase Grounding to Intelligent Surgical Narratives

Este artículo presenta un marco multimodal basado en CLIP que genera automáticamente líneas de tiempo y narrativas quirúrgicas estructuradas a partir de videos de operaciones, alineando los gestos visuales con descripciones textuales para eliminar la necesidad de anotaciones manuales o informes postoperatorios vagos.

Ethan Peterson, Huixin Zhan2026-03-09💻 cs

Uni-LVC: A Unified Method for Intra- and Inter-Mode Learned Video Compression

El artículo presenta Uni-LVC, un método unificado de compresión de video aprendido que integra modos intra e inter en un solo modelo mediante atención cruzada y un clasificador consciente de la fiabilidad, logrando un rendimiento superior en eficiencia de compresión y adaptabilidad ante referencias temporales poco fiables.

Yichi Zhang, Ruoyu Yang, Fengqing Zhu2026-03-09💻 cs

Full Dynamic Range Sky-Modelling For Image Based Lighting

El artículo presenta Icarus, un modelo de cielo todo tiempo basado en aprendizaje profundo que supera las limitaciones de los modelos actuales al generar mapas de entorno de alto rango dinámico completo (FDR) con nubes y posiciones solares controlables, logrando una iluminación basada en imágenes (IBL) con un realismo fotográfico y una precisión de sombras sin precedentes.

Ian J. Maquignaz2026-03-09🤖 cs.LG

Bridging Domains through Subspace-Aware Model Merging

El artículo presenta SCORE, un método de fusión de modelos que mejora la generalización de dominio al resolver conflictos entre subespacios singulares mediante la proyección de matrices de tareas en una base ortogonal compartida.

Levy Chaves, Chao Zhou, Rebekka Burkholz, Eduardo Valle, Sandra Avila2026-03-09🤖 cs.AI

Layer-wise Instance Binding for Regional and Occlusion Control in Text-to-Image Diffusion Transformers

El artículo presenta LayerBind, un método libre de entrenamiento para controladores de difusión transformadores que logra una gestión precisa de regiones y oclusiones mediante la inicialización de instancias por capas y el cuidado semántico, permitiendo la edición flexible de layouts sin degradar la calidad de la imagen.

Ruidong Chen, Yancheng Bai, Xuanpu Zhang, Jianhao Zeng, Lanjun Wang, Dan Song, Lei Sun, Xiangxiang Chu, Anan Liu2026-03-09💻 cs

Visual Words Meet BM25: Sparse Auto-Encoder Visual Word Scoring for Image Retrieval

El artículo presenta BM25-V, un método de recuperación de imágenes que aplica la puntuación BM25 a activaciones de palabras visuales dispersas generadas por un autoencoder disperso, logrando una alta precisión y eficiencia al servir como recuperador inicial de alto rendimiento para un reordenamiento denso posterior.

Donghoon Han, Eunhwan Park, Seunghyeon Seo2026-03-09🤖 cs.AI

Spectral Probing of Feature Upsamplers in 2D-to-3D Scene Reconstruction

Este artículo presenta un marco de diagnóstico espectral que demuestra que la consistencia estructural espectral, y no el mero realce de detalles espaciales, es el factor determinante para la calidad de la reconstrucción 3D en pipelines que utilizan modelos de visión fundamentales.

Ling Xiao, Yuliang Xiu, Yue Chen, Guoming Wang, Toshihiko Yamasaki2026-03-09💻 cs

EventGeM: Global-to-Local Feature Matching for Event-Based Visual Place Recognition

El artículo presenta EventGeM, un sistema de reconocimiento de lugares basado en eventos que fusiona características globales y locales mediante transformadores de visión y estimación de profundidad para lograr un posicionamiento preciso en tiempo real y superar el estado del arte en diversas condiciones de iluminación.

Adam D. Hines, Gokul B. Nair, Nicolás Marticorena, Michael Milford, Tobias Fischer2026-03-09💻 cs

Training-free Latent Inter-Frame Pruning with Attention Recovery

El artículo presenta LIPAR, un marco de poda de latentes intercuadro sin entrenamiento que aprovecha la redundancia temporal y recupera la atención para acelerar la generación de video en tiempo real sin comprometer la calidad.

Dennis Menn, Yuedong Yang, Bokun Wang, Xiwen Wei, Mustafa Munir, Feng Liang, Radu Marculescu, Chenfeng Xu, Diana Marculescu2026-03-09💻 cs

Margin and Consistency Supervision for Calibrated and Robust Vision Models

El artículo presenta MaCS, un marco de regularización simple y agnóstico a la arquitectura que mejora la calibración y la robustez de los modelos de visión mediante la combinación de una penalización de margen en el espacio de logits y un regularizador de consistencia, logrando mejores garantías teóricas y rendimiento empírico sin requerir datos adicionales ni cambios arquitectónicos.

Salim Khazem2026-03-09🤖 cs.AI

Architectural Unification for Polarimetric Imaging Across Multiple Degradations

Este trabajo propone un marco arquitectónico unificado que, mediante un procesamiento conjunto de imagen y Stokes en una sola etapa, logra un rendimiento superior en la restauración de imágenes polarimétricas degradadas por ruido, desenfoque o mosaicos, garantizando la consistencia física de los parámetros polarimétricos sin necesidad de rediseñar la red para cada tipo de degradación.

Chu Zhou, Yufei Han, Junda Liao, Linrui Dai, Wangze Xu, Art Subpa-Asa, Heng Guo, Boxin Shi, Imari Sato2026-03-09💻 cs

← Anterior Siguiente →