cs.CV artículos | Gist.Science

ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

El artículo presenta ViTaPEs, una arquitectura basada en transformadores que introduce un mecanismo de inyección posicional en dos etapas (local y global) para alinear eficazmente las modalidades visual y táctil, logrando un rendimiento superior en tareas de reconocimiento y generalización cero en escenarios no vistos sin depender de modelos preentrenados.

Fotios Lygerakis, Ozan Özdenizci, Elmar Rückert2026-03-10🤖 cs.LG

From Semantic To Instance: A Semi-Self-Supervised Learning Approach

Este artículo presenta GLMask, un enfoque de aprendizaje semi-autosupervisado que transforma la segmentación semántica en segmentación de instancias con mínima anotación manual, logrando un rendimiento superior al estado del arte en la detección de espigas de trigo y en el conjunto de datos COCO.

Keyhan Najafian, Farhad Maleki, Lingling Jin, Ian Stavness2026-03-10🤖 cs.LG

Transforming H&E images into IHC: A Variance-Penalized GAN for Precision Oncology

Este estudio presenta un marco de aprendizaje profundo basado en una GAN penalizada por varianza que transforma imágenes de tinción H&E en imágenes de inmunohistoquímica (IHC) de alta fidelidad para la evaluación precisa de HER2 en cáncer de mama, superando a los modelos existentes en métricas de calidad y ofreciendo una alternativa rentable y escalable a los diagnósticos tradicionales.

Sara Rehmat, Hafeez Ur Rehman, Byeong-Gwon Kang, Sarra Ayouni, Yunyoung Nam2026-03-10💻 cs

Light of Normals: Unified Feature Representation for Universal Photometric Stereo

El artículo presenta LINO UniPS, un enfoque unificado para la estereofotometría universal que logra una representación de características desacoplada mediante tokens de registro de luz y atención entrelazada, preserva los detalles geométricos de alta frecuencia con una arquitectura de doble rama basada en wavelets, y se entrena en el nuevo dataset PS-Verse para alcanzar resultados de vanguardia.

Houyuan Chen, Hong Li, Chongjie Ye + 11 more2026-03-10💻 cs

Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models

Este artículo presenta un marco novedoso de cascada guiado por modelos de lenguaje visuales (VLM) que utiliza características derivadas del VLM como prompts explícitos para el modelo Segment Anything (SAM) y emplea la salida de segmentación como un prior espacial suave, logrando así una segmentación y clasificación más precisas y eficientes de objetos camuflados en escenarios de vocabulario abierto.

Kai Zhao, Wubang Yuan, Zheng Wang, Guanyi Li, Xiaoqiang Zhu, Deng-ping Fan, Dan Zeng2026-03-10💻 cs

LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling

El artículo presenta LD-RPS, un enfoque unificado y sin datos de entrenamiento para la restauración de imágenes que utiliza muestreo recurrente de posterior en un modelo de difusión latente preentrenado, potenciado por un modelo de comprensión multimodal para lograr resultados superiores a los métodos actuales en diversas degradaciones.

Huaqiu Li, Yong Wang, Tongwen Huang, Hailang Huang, Haoqian Wang, Xiangxiang Chu2026-03-10💻 cs

Adopting a human developmental visual diet yields robust, shape-based AI vision

Este estudio demuestra que adoptar una dieta visual de desarrollo inspirada en la maduración humana permite crear sistemas de visión artificial más robustos, que dependen principalmente de la forma en lugar de la textura y superan el estado del arte en reconocimiento de formas abstractas y resistencia a perturbaciones.

Zejin Lu, Sushrut Thorat, Radoslaw M Cichy, Tim C Kietzmann2026-03-10🤖 cs.LG

Query-Based Adaptive Aggregation for Multi-Dataset Joint Training Toward Universal Visual Place Recognition

Este artículo presenta QAA, un método de agregación adaptativa basado en consultas que mejora la generalización del Reconocimiento Universal de Lugares Visuales al entrenar conjuntamente múltiples conjuntos de datos sin sacrificar el rendimiento ni la eficiencia computacional.

Jiuhong Xiao, Yang Zhou, Giuseppe Loianno2026-03-10💻 cs

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

Este artículo presenta MCULoRA, un nuevo enfoque de adaptación de bajo rango que desacopla dinámicamente las características de las combinaciones modales para resolver los conflictos de gradientes en el reconocimiento de emociones multimodal con datos incompletos, superando significativamente a los métodos existentes.

Xinkui Zhao, Jinsong Shu, Yangyang Wu, Guanjie Cheng, Zihe Liu, Naibo Wang, Shuiguang Deng, Zhongle Xie, Jianwei Yin2026-03-10💻 cs

Unified Medical Image Segmentation with State Space Modeling Snake

El artículo presenta Mamba Snake, un marco innovador basado en modelos de espacio de estados que mejora la segmentación médica unificada al modelar eficazmente las relaciones topológicas interórganas y refinar contornos complejos, logrando un rendimiento superior en múltiples conjuntos de datos clínicos.

Ruicheng Zhang, Haowei Guo, Kanghui Tian, Jun Zhou, Mingliang Yan, Zeyu Zhang, Shen Zhao2026-03-10💻 cs

$\pi^3$ : Permutation-Equivariant Visual Geometry Learning

El artículo presenta $π^3$ , una red neuronal feed-forward totalmente equivariante a la permutación que elimina la dependencia de una vista de referencia fija para lograr estimaciones de poses de cámara y reconstrucciones geométricas más precisas y robustas, superando el estado del arte en diversas tareas de geometría visual.

Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He2026-03-10💻 cs

InsightX Agent: An LMM-based Agentic Framework with Integrated Tools for Reliable X-ray NDT Analysis

El artículo presenta InsightX Agent, un marco basado en un Modelo Multimodal Grande (LMM) que orquesta herramientas de detección y reflexión para ofrecer un análisis de inspección no destructiva por rayos X más fiable, interpretable e interactivo, logrando un alto rendimiento en la detección de defectos y una mayor confianza operativa.

Jiale Liu, Huan Wang, Yue Zhang + 4 more2026-03-10🤖 cs.AI

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

Este artículo propone un marco de aprendizaje profundo basado en Vision Transformer (ViT) que utiliza análisis de espacio de características y un índice de confianza para generar datos de entrenamiento débilmente supervisados a partir de imágenes Sentinel-2 y Formosat-5, mejorando así la segmentación de áreas afectadas por desastres para el producto EVAP de la Agencia Espacial de Taiwán en escenarios con escasa información de referencia.

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

Empowering Microscopic Traffic Simulators with Realistic Perception using Surrogate Sensor Models

El artículo presenta MIDAR, un modelo sustituto de detección LiDAR que utiliza características de alto nivel de simuladores de tráfico microscópicos y una arquitectura de Graph Transformer para generar percepciones realistas con bajo costo computacional, superando las limitaciones de escalabilidad de los simuladores basados en motores de juego y mejorando aplicaciones de sistemas de transporte inteligentes.

Tianheng Zhu, Yiheng Feng2026-03-10💻 cs

TransUNet-GradCAM: A Hybrid Transformer-U-Net with Self-Attention and Explainable Visualizations for Foot Ulcer Segmentation

Este artículo presenta TransUNet-GradCAM, un modelo híbrido que combina transformadores y U-Net para lograr una segmentación precisa y explicativa de úlceras diabéticas en los pies, demostrando un alto rendimiento y capacidad de generalización en múltiples conjuntos de datos clínicos externos.

Akwasi Asare, Mary Sagoe, Justice Williams Asare, Stephen Edward Moore2026-03-10💻 cs

S $^2$ Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation

El artículo presenta S²Q-VDiT, un marco de cuantización post-entrenamiento para transformadores de difusión de video que utiliza selección de datos salientes y destilación de tokens dispersos para lograr un rendimiento sin pérdidas con una compresión de modelo de 3.9× y una aceleración de inferencia de 1.3×.

Weilun Feng, Haotong Qin, Chuanguang Yang, Xiangqi Li, Han Yang, Yuqi Li, Zhulin An, Libo Huang, Michele Magno, Yongjun Xu2026-03-10💻 cs

SPEX: A Vision-Language Model for Land Cover Extraction on Spectral Remote Sensing Images

El artículo presenta SPEX, el primer modelo de lenguaje visual multimodal diseñado para la extracción de cobertura terrestre en imágenes de teledetección espectral, que aprovecha un nuevo conjunto de datos instruido (SPIE) y estrategias de entrenamiento avanzadas para superar a los métodos actuales y ofrecer explicaciones textuales interpretables.

Dongchen Si, Di Wang, Erzhong Gao, Xiaolei Qin, Liu Zhao, Jing Zhang, Minqiang Xu, Jianbo Zhan, Jianshe Wang, Lin Liu, Bo Du, Liangpei Zhang2026-03-10💻 cs

3D Gaussian Splatting with Fisheye Images: Field of View Analysis and Depth-Based Initialization

Este trabajo presenta la primera evaluación de métodos de 3D Gaussian Splatting en imágenes de ojo de pez con campos de visión superiores a 180°, demostrando que un campo de 160° ofrece el mejor equilibrio y proponiendo una inicialización basada en profundidad mediante UniK3D que supera a los métodos tradicionales de SfM en escenarios distorsionados.

Ulas Gunes, Matias Turkulainen, Mikhail Silaev, Juho Kannala, Esa Rahtu2026-03-10💻 cs

Unified and Semantically Grounded Domain Adaptation for Medical Image Segmentation

Este artículo presenta un marco unificado y semánticamente fundamentado para la adaptación de dominio en la segmentación de imágenes médicas, que mediante el aprendizaje de una variedad probabilística agnóstica al dominio logra resultados de vanguardia tanto en escenarios con acceso a datos de origen como sin ellos, eliminando la necesidad de estrategias explícitas de alineación cruzada.

Xin Wang, Yin Guo, Jiamin Xia, Kaiyu Zhang, Niranjan Balu, Mahmud Mossa-Basha, Linda Shapiro, Chun Yuan2026-03-10💻 cs

IAG: Input-aware Backdoor Attack on VLM-based Visual Grounding

Este artículo presenta IAG, el primer ataque de puerta trasera multiobjetivo para modelos de visión-lingüística (VLM) en la tarea de grounding visual, que genera dinámicamente desencadenantes imperceptibles guiados por texto para redirigir el reconocimiento de objetos hacia objetivos específicos sin comprometer el rendimiento en muestras benignas.

Junxian Li, Beining Xu, Simin Chen, Jiatong Li, Jingdi Lei, Haodong Zhao, Di Zhang2026-03-10💬 cs.CL

← Anterior Siguiente →

cs.CV