cs.CV artículos | Gist.Science

Light of Normals: Unified Feature Representation for Universal Photometric Stereo

El artículo presenta LINO UniPS, un enfoque unificado para la estereofotometría universal que logra una representación de características desacoplada mediante tokens de registro de luz y atención entrelazada, preserva los detalles geométricos de alta frecuencia con una arquitectura de doble rama basada en wavelets, y se entrena en el nuevo dataset PS-Verse para alcanzar resultados de vanguardia.

Houyuan Chen, Hong Li, Chongjie Ye + 11 more2026-03-10💻 cs

Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models

Este artículo presenta un marco novedoso de cascada guiado por modelos de lenguaje visuales (VLM) que utiliza características derivadas del VLM como prompts explícitos para el modelo Segment Anything (SAM) y emplea la salida de segmentación como un prior espacial suave, logrando así una segmentación y clasificación más precisas y eficientes de objetos camuflados en escenarios de vocabulario abierto.

Kai Zhao, Wubang Yuan, Zheng Wang, Guanyi Li, Xiaoqiang Zhu, Deng-ping Fan, Dan Zeng2026-03-10💻 cs

LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling

El artículo presenta LD-RPS, un enfoque unificado y sin datos de entrenamiento para la restauración de imágenes que utiliza muestreo recurrente de posterior en un modelo de difusión latente preentrenado, potenciado por un modelo de comprensión multimodal para lograr resultados superiores a los métodos actuales en diversas degradaciones.

Huaqiu Li, Yong Wang, Tongwen Huang, Hailang Huang, Haoqian Wang, Xiangxiang Chu2026-03-10💻 cs

Adopting a human developmental visual diet yields robust, shape-based AI vision

Este estudio demuestra que adoptar una dieta visual de desarrollo inspirada en la maduración humana permite crear sistemas de visión artificial más robustos, que dependen principalmente de la forma en lugar de la textura y superan el estado del arte en reconocimiento de formas abstractas y resistencia a perturbaciones.

Zejin Lu, Sushrut Thorat, Radoslaw M Cichy, Tim C Kietzmann2026-03-10🤖 cs.LG

Query-Based Adaptive Aggregation for Multi-Dataset Joint Training Toward Universal Visual Place Recognition

Este artículo presenta QAA, un método de agregación adaptativa basado en consultas que mejora la generalización del Reconocimiento Universal de Lugares Visuales al entrenar conjuntamente múltiples conjuntos de datos sin sacrificar el rendimiento ni la eficiencia computacional.

Jiuhong Xiao, Yang Zhou, Giuseppe Loianno2026-03-10💻 cs

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

Este artículo presenta MCULoRA, un nuevo enfoque de adaptación de bajo rango que desacopla dinámicamente las características de las combinaciones modales para resolver los conflictos de gradientes en el reconocimiento de emociones multimodal con datos incompletos, superando significativamente a los métodos existentes.

Xinkui Zhao, Jinsong Shu, Yangyang Wu, Guanjie Cheng, Zihe Liu, Naibo Wang, Shuiguang Deng, Zhongle Xie, Jianwei Yin2026-03-10💻 cs

Unified Medical Image Segmentation with State Space Modeling Snake

El artículo presenta Mamba Snake, un marco innovador basado en modelos de espacio de estados que mejora la segmentación médica unificada al modelar eficazmente las relaciones topológicas interórganas y refinar contornos complejos, logrando un rendimiento superior en múltiples conjuntos de datos clínicos.

Ruicheng Zhang, Haowei Guo, Kanghui Tian, Jun Zhou, Mingliang Yan, Zeyu Zhang, Shen Zhao2026-03-10💻 cs

$\pi^3$ : Permutation-Equivariant Visual Geometry Learning

El artículo presenta $π^3$ , una red neuronal feed-forward totalmente equivariante a la permutación que elimina la dependencia de una vista de referencia fija para lograr estimaciones de poses de cámara y reconstrucciones geométricas más precisas y robustas, superando el estado del arte en diversas tareas de geometría visual.

Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He2026-03-10💻 cs

InsightX Agent: An LMM-based Agentic Framework with Integrated Tools for Reliable X-ray NDT Analysis

El artículo presenta InsightX Agent, un marco basado en un Modelo Multimodal Grande (LMM) que orquesta herramientas de detección y reflexión para ofrecer un análisis de inspección no destructiva por rayos X más fiable, interpretable e interactivo, logrando un alto rendimiento en la detección de defectos y una mayor confianza operativa.

Jiale Liu, Huan Wang, Yue Zhang + 4 more2026-03-10🤖 cs.AI

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

Este artículo propone un marco de aprendizaje profundo basado en Vision Transformer (ViT) que utiliza análisis de espacio de características y un índice de confianza para generar datos de entrenamiento débilmente supervisados a partir de imágenes Sentinel-2 y Formosat-5, mejorando así la segmentación de áreas afectadas por desastres para el producto EVAP de la Agencia Espacial de Taiwán en escenarios con escasa información de referencia.

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

Empowering Microscopic Traffic Simulators with Realistic Perception using Surrogate Sensor Models

El artículo presenta MIDAR, un modelo sustituto de detección LiDAR que utiliza características de alto nivel de simuladores de tráfico microscópicos y una arquitectura de Graph Transformer para generar percepciones realistas con bajo costo computacional, superando las limitaciones de escalabilidad de los simuladores basados en motores de juego y mejorando aplicaciones de sistemas de transporte inteligentes.

Tianheng Zhu, Yiheng Feng2026-03-10💻 cs

TransUNet-GradCAM: A Hybrid Transformer-U-Net with Self-Attention and Explainable Visualizations for Foot Ulcer Segmentation

Este artículo presenta TransUNet-GradCAM, un modelo híbrido que combina transformadores y U-Net para lograr una segmentación precisa y explicativa de úlceras diabéticas en los pies, demostrando un alto rendimiento y capacidad de generalización en múltiples conjuntos de datos clínicos externos.

Akwasi Asare, Mary Sagoe, Justice Williams Asare, Stephen Edward Moore2026-03-10💻 cs

S $^2$ Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation

El artículo presenta S²Q-VDiT, un marco de cuantización post-entrenamiento para transformadores de difusión de video que utiliza selección de datos salientes y destilación de tokens dispersos para lograr un rendimiento sin pérdidas con una compresión de modelo de 3.9× y una aceleración de inferencia de 1.3×.

Weilun Feng, Haotong Qin, Chuanguang Yang, Xiangqi Li, Han Yang, Yuqi Li, Zhulin An, Libo Huang, Michele Magno, Yongjun Xu2026-03-10💻 cs

SPEX: A Vision-Language Model for Land Cover Extraction on Spectral Remote Sensing Images

El artículo presenta SPEX, el primer modelo de lenguaje visual multimodal diseñado para la extracción de cobertura terrestre en imágenes de teledetección espectral, que aprovecha un nuevo conjunto de datos instruido (SPIE) y estrategias de entrenamiento avanzadas para superar a los métodos actuales y ofrecer explicaciones textuales interpretables.

Dongchen Si, Di Wang, Erzhong Gao, Xiaolei Qin, Liu Zhao, Jing Zhang, Minqiang Xu, Jianbo Zhan, Jianshe Wang, Lin Liu, Bo Du, Liangpei Zhang2026-03-10💻 cs

3D Gaussian Splatting with Fisheye Images: Field of View Analysis and Depth-Based Initialization

Este trabajo presenta la primera evaluación de métodos de 3D Gaussian Splatting en imágenes de ojo de pez con campos de visión superiores a 180°, demostrando que un campo de 160° ofrece el mejor equilibrio y proponiendo una inicialización basada en profundidad mediante UniK3D que supera a los métodos tradicionales de SfM en escenarios distorsionados.

Ulas Gunes, Matias Turkulainen, Mikhail Silaev, Juho Kannala, Esa Rahtu2026-03-10💻 cs

Unified and Semantically Grounded Domain Adaptation for Medical Image Segmentation

Este artículo presenta un marco unificado y semánticamente fundamentado para la adaptación de dominio en la segmentación de imágenes médicas, que mediante el aprendizaje de una variedad probabilística agnóstica al dominio logra resultados de vanguardia tanto en escenarios con acceso a datos de origen como sin ellos, eliminando la necesidad de estrategias explícitas de alineación cruzada.

Xin Wang, Yin Guo, Jiamin Xia, Kaiyu Zhang, Niranjan Balu, Mahmud Mossa-Basha, Linda Shapiro, Chun Yuan2026-03-10💻 cs

IAG: Input-aware Backdoor Attack on VLM-based Visual Grounding

Este artículo presenta IAG, el primer ataque de puerta trasera multiobjetivo para modelos de visión-lingüística (VLM) en la tarea de grounding visual, que genera dinámicamente desencadenantes imperceptibles guiados por texto para redirigir el reconocimiento de objetos hacia objetivos específicos sin comprometer el rendimiento en muestras benignas.

Junxian Li, Beining Xu, Simin Chen, Jiatong Li, Jingdi Lei, Haodong Zhao, Di Zhang2026-03-10💬 cs.CL

Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

El artículo presenta Video-EM, un marco de memoria episódica sin entrenamiento que mejora la comprensión de videos largos mediante la construcción y refinamiento iterativo de una línea temporal de eventos coherentes, superando las limitaciones de las selecciones de fotogramas aisladas para permitir un razonamiento más preciso en modelos de lenguaje visual.

Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Ao Ma, Run Ling, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li2026-03-10💻 cs

UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding

El artículo presenta UniUGG, el primer marco unificado que integra la comprensión y generación de modalidades 3D mediante un LLM, un decodificador espacial basado en difusión latente y una estrategia de aprendizaje geométrico-semántico para mejorar la visualización espacial y la generación de escenas 3D.

Yueming Xu, Jiahui Zhang, Ze Huang, Yurui Chen, Yanpeng Zhou, Zhenyu Chen, Yu-Jie Yuan, Pengxiang Xia, Guowei Huang, Xinyue Cai, Zhongang Qi, Xingyue Quan, Jianye Hao, Hang Xu, Li Zhang2026-03-10💻 cs

Efficient Diffusion-Based 3D Human Pose Estimation with Hierarchical Temporal Pruning

Este artículo presenta un marco de estimación de poses humanas 3D basado en difusión que utiliza una estrategia de poda temporal jerárquica (HTP) para reducir drásticamente los costos computacionales y acelerar la inferencia sin sacrificar el rendimiento, logrando resultados de vanguardia en conjuntos de datos estándar.

Yuquan Bi, Hongsong Wang, Xinli Shi, Zhipeng Gui, Jie Gui, Yuan Yan Tang2026-03-10💻 cs

← Anterior Siguiente →

cs.CV