cs.CV artículos | Gist.Science

SRNeRV: A Scale-wise Recursive Framework for Neural Video Representation

El artículo presenta SRNeRV, un marco recursivo a escala que mejora la eficiencia de parámetros y el rendimiento en la representación de video mediante el uso de una arquitectura compartida que descompone el procesamiento en módulos espaciales específicos de escala y de canales invariantes.

Jia Wang, Jun Zhu, Xinfeng Zhang2026-03-10💻 cs

GarmentPainter: Efficient 3D Garment Texture Synthesis with Character-Guided Diffusion Model

El artículo presenta GarmentPainter, un marco eficiente que sintetiza texturas de prendas 3D de alta fidelidad y coherencia espacial mediante un modelo de difusión guiado por la posición UV y una imagen de referencia del personaje, sin requerir alineación estricta ni modificar la arquitectura subyacente.

Jinbo Wu, Xiaobo Gao, Xing Liu, Chen Zhao, Jialun Liu2026-03-10💻 cs

Exploring Deep Learning and Ultra-Widefield Imaging for Diabetic Retinopathy and Macular Edema

Este estudio evalúa métodos de aprendizaje profundo, incluyendo redes neuronales convolucionales, transformadores de visión y modelos fundacionales, aplicados a imágenes ultra granulares para la detección de retinopatía diabética y edema macular diabético, demostrando un rendimiento sólido y la eficacia de la fusión de características y las representaciones en el dominio de la frecuencia.

Pablo Jimenez-Lizcano, Sergio Romero-Tapiador, Ruben Tolosana, Aythami Morales, Guillermo González de Rivera, Ruben Vera-Rodriguez, Julian Fierrez2026-03-10💻 cs

SiMO: Single-Modality-Operable Multimodal Collaborative Perception

El artículo presenta SiMO, un nuevo enfoque de percepción colaborativa multimodal que supera las limitaciones de los métodos existentes al garantizar un funcionamiento óptimo incluso cuando falla un sensor clave, mediante una fusión adaptable de características y una estrategia de entrenamiento que preserva la independencia de cada modalidad.

Jiageng Wen, Shengjie Zhao, Bing Li, Jiafeng Huang, Kenan Ye, Hao Deng2026-03-10💻 cs

Topologically Stable Hough Transform

Este artículo propone una formulación alternativa de la transformada de Hough que, al sustituir el esquema de votación discretizado por una función de puntuación continua, utiliza la homología persistente para identificar líneas en nubes de puntos y presenta un algoritmo eficiente para su cálculo.

Stefan Huber, Kristóf Huszár, Michael Kerber, Martin Uray2026-03-10💻 cs

DynamicVGGT: Learning Dynamic Point Maps for 4D Scene Reconstruction in Autonomous Driving

El artículo presenta DynamicVGGT, un marco unificado de alimentación directa que extiende la percepción 3D estática a la reconstrucción dinámica 4D para la conducción autónoma mediante la predicción conjunta de mapas de puntos, un módulo de atención temporal consciente del movimiento y una cabeza de *Gaussian Splatting* 3D dinámica para modelar con precisión el movimiento y la coherencia temporal en escenas complejas.

Zhuolin He, Jing Li, Guanghao Li, Xiaolei Chen, Jiacheng Tang, Siyang Zhang, Zhounan Jin, Feipeng Cai, Bin Li, Jian Pu, Jia Cai, Xiangyang Xue2026-03-10💻 cs

WaDi: Weight Direction-aware Distillation for One-step Image Synthesis

El artículo presenta WaDi, un marco de destilación para síntesis de imágenes en un solo paso que utiliza el adaptador LoRaD para modelar cambios direccionales en los pesos de los modelos de difusión, logrando un rendimiento de vanguardia con solo el 10% de los parámetros entrenables.

Lei Wang, Yang Cheng, Senmao Li, Ge Wu, Yaxing Wang, Jian Yang2026-03-10💻 cs

Event-based Motion & Appearance Fusion for 6D Object Pose Tracking

Este trabajo presenta un método libre de aprendizaje para el seguimiento de pose 6D de objetos que fusiona el flujo óptico basado en eventos para la propagación de la pose con una corrección local basada en plantillas, logrando un rendimiento comparable o superior a los algoritmos actuales en escenarios dinámicos de alta velocidad donde las cámaras RGB-D y las redes profundas tienen limitaciones.

Zhichao Li, Chiara Bartolozzi, Lorenzo Natale, Arren Glover2026-03-10💻 cs

Prototype-Guided Concept Erasure in Diffusion Models

Este trabajo propone un método de borrado de conceptos en modelos de difusión que utiliza prototipos derivados de la geometría de las incrustaciones latentes para eliminar de forma fiable conceptos amplios y complejos, como la violencia o la sexualidad, sin comprometer la calidad de las imágenes generadas.

Yuze Cai, Jiahao Lu, Hongxiang Shi, Yichao Zhou, Hong Lu2026-03-10💻 cs

OSCAR: Occupancy-based Shape Completion via Acoustic Neural Implicit Representations

El artículo presenta OSCAR, un método basado en representaciones implícitas neuronales que reconstruye la geometría 3D completa de la anatomía vertebral a partir de observaciones parciales de ultrasonido mediante un espacio latente acoplado que modela la apariencia de la imagen y la forma anatómica, logrando una mejora del 80% en la puntuación HD95 sin necesidad de etiquetas anatómicas durante la inferencia.

Magdalena Wysocki, Kadir Burak Buldu, Miruna-Alexandra Gafencu, Mohammad Farid Azampour, Nassir Navab2026-03-10💻 cs

Novel Semantic Prompting for Zero-Shot Action Recognition

El artículo presenta SP-CLIP, un marco ligero que mejora el reconocimiento de acciones sin ejemplos previos mediante el uso de prompts semánticos estructurados que enriquecen las descripciones textuales sin modificar los modelos de visión-idioma preentrenados.

Salman Iqbal, Waheed Rehman2026-03-10💻 cs

Retrieval-Augmented Anatomical Guidance for Text-to-CT Generation

Este trabajo propone un método de generación de imágenes CT a partir de texto que mejora la fidelidad y la consistencia anatómica al recuperar casos clínicos relevantes mediante un codificador visión-lingüístico 3D para utilizar sus anotaciones como guía estructural en un modelo de difusión latente.

Daniele Molino, Camillo Maria Caruso, Paolo Soda, Valerio Guarrasi2026-03-10💻 cs

Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness

Este trabajo presenta un marco de ajuste fino que mejora la robustez de los Transformadores de Visión (ViTs) ante cambios de distribución al alinear sus mapas de relevancia con conceptos semánticos de nivel de objeto generados automáticamente mediante LLMs y VLMs, reduciendo así la dependencia de correlaciones espurias.

Yehonatan Elisha, Oren Barkan, Noam Koenigstein2026-03-10🤖 cs.LG

HDR-NSFF: High Dynamic Range Neural Scene Flow Fields

El artículo presenta HDR-NSFF, un marco unificado que transforma la fusión de imágenes de alto rango dinámico (HDR) de un enfoque 2D a un modelado espaciotemporal 4D para reconstruir radiancias HDR coherentes y sin artefactos a partir de videos monoculares con exposiciones alternadas, superando las limitaciones de los métodos convencionales mediante la integración de campos de flujo neuronal, priores generativos y un nuevo conjunto de datos real.

Shin Dong-Yeon, Kim Jun-Seong, Kwon Byung-Ki, Tae-Hyun Oh2026-03-10💻 cs

SlowBA: An efficiency backdoor attack towards VLM-based GUI agents

El artículo presenta SlowBA, un ataque de puerta trasera novedoso que compromete la eficiencia de los agentes de interfaz gráfica basados en modelos de lenguaje y visión al inducir cadenas de razonamiento excesivamente largas mediante patrones de activación específicos, aumentando significativamente la latencia de respuesta sin sacrificar la precisión de la tarea.

Junxian Li, Tu Lan, Haozhen Tan, Yan Meng, Haojin Zhu2026-03-10💬 cs.CL

Human-AI Divergence in Ego-centric Action Recognition under Spatial and Spatiotemporal Manipulations

Este estudio compara el rendimiento de humanos y modelos de IA en el reconocimiento de acciones egocéntricas utilizando recortes mínimos identificables (MIRCs) y revela que, mientras los humanos dependen de señales semánticas críticas como las interacciones mano-objeto, los modelos de IA muestran una degradación más gradual basada en características contextuales y de bajo nivel, lo que explica la brecha de rendimiento en condiciones desafiantes.

Sadegh Rahmaniboldaji, Filip Rybansky, Quoc C. Vuong, Anya C. Hurlbert, Frank Guerin, Andrew Gilbert2026-03-10💻 cs

Beyond Attention Heatmaps: How to Get Better Explanations for Multiple Instance Learning Models in Histopathology

Este trabajo presenta un marco general para evaluar la calidad de los mapas de calor en el aprendizaje de múltiples instancias (MIL) para patología computacional, demostrando mediante un extenso benchmark que métodos como la propagación de relevancia capa a capa (LRP) y los gradientes integrados (IG) superan a las técnicas basadas en atención, permitiendo así validaciones biológicas más fiables y el descubrimiento de nuevas estrategias de predicción.

Mina Jamshidi Idaji, Julius Hense, Tom Neuhäuser, Augustin Krause, Yanqing Luo, Oliver Eberle, Thomas Schnake, Laure Ciernik, Farnoush Rezaei Jafari, Reza Vahidimajd, Jonas Dippel, Christoph Walz, Frederick Klauschen, Andreas Mock, Klaus-Robert Müller2026-03-10🤖 cs.LG

Local-Global Prompt Learning via Sparse Optimal Transport

El artículo presenta SOT-GLP, un método de aprendizaje de prompts que combina alineación global y local mediante transporte óptimo disperso para mejorar la precisión en clasificación con pocos ejemplos y la detección de datos fuera de distribución en modelos de visión-idioma como CLIP.

Deniz Kizaro\u{g}lu, Ülku Tuncer Küçüktas, Emre Çakmakyurdu, Alptekin Temizel2026-03-10💻 cs

$\Delta$ VLA: Prior-Guided Vision-Language-Action Models via World Knowledge Variation

El artículo presenta $\Delta$ VLA, un marco de modelos visión-lenguaje-acción guiado por priores que mejora la generación de acciones robóticas al modelar las variaciones del conocimiento del mundo en lugar de predecir estados futuros absolutos, logrando un rendimiento superior y mayor eficiencia mediante la extracción de priores, la cuantización latente de variaciones y la atención condicional.

Yijie Zhu, Jie He, Rui Shao, Kaishen Yuan, Tao Tan, Xiaochen Yuan, Zitong Yu2026-03-10💻 cs

Diffusion-Based Data Augmentation for Image Recognition: A Systematic Analysis and Evaluation

Este trabajo presenta UniDiffDA, un marco analítico unificado que descompone la augmentación de datos basada en difusión en tres componentes clave para establecer un protocolo de evaluación justo y exhaustivo que permite comparar y comprender sistemáticamente las estrategias existentes en tareas de clasificación con escasez de datos.

Zekun Li, Yinghuan Shi, Yang Gao, Dong Xu2026-03-10💻 cs

← Anterior Siguiente →

cs.CV