cs.CV artículos | Gist.Science

Empowering Microscopic Traffic Simulators with Realistic Perception using Surrogate Sensor Models

El artículo presenta MIDAR, un modelo sustituto de detección LiDAR que utiliza características de alto nivel de simuladores de tráfico microscópicos y una arquitectura de Graph Transformer para generar percepciones realistas con bajo costo computacional, superando las limitaciones de escalabilidad de los simuladores basados en motores de juego y mejorando aplicaciones de sistemas de transporte inteligentes.

Tianheng Zhu, Yiheng Feng2026-03-10💻 cs

TransUNet-GradCAM: A Hybrid Transformer-U-Net with Self-Attention and Explainable Visualizations for Foot Ulcer Segmentation

Este artículo presenta TransUNet-GradCAM, un modelo híbrido que combina transformadores y U-Net para lograr una segmentación precisa y explicativa de úlceras diabéticas en los pies, demostrando un alto rendimiento y capacidad de generalización en múltiples conjuntos de datos clínicos externos.

Akwasi Asare, Mary Sagoe, Justice Williams Asare, Stephen Edward Moore2026-03-10💻 cs

S $^2$ Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation

El artículo presenta S²Q-VDiT, un marco de cuantización post-entrenamiento para transformadores de difusión de video que utiliza selección de datos salientes y destilación de tokens dispersos para lograr un rendimiento sin pérdidas con una compresión de modelo de 3.9× y una aceleración de inferencia de 1.3×.

Weilun Feng, Haotong Qin, Chuanguang Yang, Xiangqi Li, Han Yang, Yuqi Li, Zhulin An, Libo Huang, Michele Magno, Yongjun Xu2026-03-10💻 cs

SPEX: A Vision-Language Model for Land Cover Extraction on Spectral Remote Sensing Images

El artículo presenta SPEX, el primer modelo de lenguaje visual multimodal diseñado para la extracción de cobertura terrestre en imágenes de teledetección espectral, que aprovecha un nuevo conjunto de datos instruido (SPIE) y estrategias de entrenamiento avanzadas para superar a los métodos actuales y ofrecer explicaciones textuales interpretables.

Dongchen Si, Di Wang, Erzhong Gao, Xiaolei Qin, Liu Zhao, Jing Zhang, Minqiang Xu, Jianbo Zhan, Jianshe Wang, Lin Liu, Bo Du, Liangpei Zhang2026-03-10💻 cs

3D Gaussian Splatting with Fisheye Images: Field of View Analysis and Depth-Based Initialization

Este trabajo presenta la primera evaluación de métodos de 3D Gaussian Splatting en imágenes de ojo de pez con campos de visión superiores a 180°, demostrando que un campo de 160° ofrece el mejor equilibrio y proponiendo una inicialización basada en profundidad mediante UniK3D que supera a los métodos tradicionales de SfM en escenarios distorsionados.

Ulas Gunes, Matias Turkulainen, Mikhail Silaev, Juho Kannala, Esa Rahtu2026-03-10💻 cs

Unified and Semantically Grounded Domain Adaptation for Medical Image Segmentation

Este artículo presenta un marco unificado y semánticamente fundamentado para la adaptación de dominio en la segmentación de imágenes médicas, que mediante el aprendizaje de una variedad probabilística agnóstica al dominio logra resultados de vanguardia tanto en escenarios con acceso a datos de origen como sin ellos, eliminando la necesidad de estrategias explícitas de alineación cruzada.

Xin Wang, Yin Guo, Jiamin Xia, Kaiyu Zhang, Niranjan Balu, Mahmud Mossa-Basha, Linda Shapiro, Chun Yuan2026-03-10💻 cs

IAG: Input-aware Backdoor Attack on VLM-based Visual Grounding

Este artículo presenta IAG, el primer ataque de puerta trasera multiobjetivo para modelos de visión-lingüística (VLM) en la tarea de grounding visual, que genera dinámicamente desencadenantes imperceptibles guiados por texto para redirigir el reconocimiento de objetos hacia objetivos específicos sin comprometer el rendimiento en muestras benignas.

Junxian Li, Beining Xu, Simin Chen, Jiatong Li, Jingdi Lei, Haodong Zhao, Di Zhang2026-03-10💬 cs.CL

Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

El artículo presenta Video-EM, un marco de memoria episódica sin entrenamiento que mejora la comprensión de videos largos mediante la construcción y refinamiento iterativo de una línea temporal de eventos coherentes, superando las limitaciones de las selecciones de fotogramas aisladas para permitir un razonamiento más preciso en modelos de lenguaje visual.

Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Ao Ma, Run Ling, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li2026-03-10💻 cs

UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding

El artículo presenta UniUGG, el primer marco unificado que integra la comprensión y generación de modalidades 3D mediante un LLM, un decodificador espacial basado en difusión latente y una estrategia de aprendizaje geométrico-semántico para mejorar la visualización espacial y la generación de escenas 3D.

Yueming Xu, Jiahui Zhang, Ze Huang, Yurui Chen, Yanpeng Zhou, Zhenyu Chen, Yu-Jie Yuan, Pengxiang Xia, Guowei Huang, Xinyue Cai, Zhongang Qi, Xingyue Quan, Jianye Hao, Hang Xu, Li Zhang2026-03-10💻 cs

Efficient Diffusion-Based 3D Human Pose Estimation with Hierarchical Temporal Pruning

Este artículo presenta un marco de estimación de poses humanas 3D basado en difusión que utiliza una estrategia de poda temporal jerárquica (HTP) para reducir drásticamente los costos computacionales y acelerar la inferencia sin sacrificar el rendimiento, logrando resultados de vanguardia en conjuntos de datos estándar.

Yuquan Bi, Hongsong Wang, Xinli Shi, Zhipeng Gui, Jie Gui, Yuan Yan Tang2026-03-10💻 cs

PointSlice: Accurate and Efficient Slice-Based Representation for 3D Object Detection from Point Clouds

El artículo presenta PointSlice, un método innovador que convierte las nubes de puntos 3D en rebanadas 2D y utiliza una red de interacción de rebanadas para lograr un equilibrio superior entre precisión y eficiencia en la detección de objetos 3D, superando a los enfoques basados en pilares y voxel en velocidad y parámetros con una pérdida mínima de exactitud.

Liu Qifeng, Zhao Dawei, Dong Yabo, Xiao Liang, Wang Juan, Min Chen, Li Fuyang, Jiang Weizhong, Lu Dongming, Nie Yiming2026-03-10💻 cs

Mix-modal Federated Learning for MRI Image Segmentation

Este artículo propone un nuevo marco de aprendizaje federado llamado MDM-MixMFL para la segmentación de imágenes de resonancia magnética (MRI) multimodales, el cual aborda la heterogeneidad de datos y modalidades entre hospitales mediante una estrategia de desacoplamiento modal y un mecanismo de memorización de prototipos para compensar la falta de modalidades en los clientes locales.

Guyue Hu, Siyuan Song, Jingpeng Sun, Zhe Jin, Chenglong Li, Jin Tang2026-03-10💻 cs

Classification of Driver Behaviour Using External Observation Techniques for Autonomous Vehicles

Este estudio presenta un sistema innovador basado en visión por computadora que clasifica la distracción y el deterioro de los conductores mediante la observación externa, utilizando detección de objetos y análisis de trayectoria para identificar comportamientos inseguros sin depender de la comunicación entre vehículos.

Ian Nell, Shane Gilroy2026-03-10⚡ eess

UltraUPConvNet: A UPerNet- and ConvNeXt-Based Multi-Task Network for Ultrasound Tissue Segmentation and Disease Prediction

El artículo presenta UltraUPConvNet, un marco universal eficiente computacionalmente basado en UPerNet y ConvNeXt que realiza simultáneamente la segmentación de tejidos y la predicción de enfermedades en imágenes de ultrasonido, logrando un rendimiento de vanguardia con menos sobrecarga computacional.

Zhi Chen, Le Zhang2026-03-10💻 cs

Traffic-MLLM: Curiosity-Regularized Supervised Learning for Traffic Scenario Case-Based Reasoning

Traffic-MLLM es un marco de razonamiento multimodal para la conducción autónoma que, en lugar de recuperar casos explícitamente, aprende un espacio de casos estructurado mediante aprendizaje supervisado regularizado por curiosidad (basado en RND) para mejorar la adaptación a escenarios de tráfico complejos y de cola larga.

Waikit Xiu, Qiang Lu, Bingchen Liu, Chen Sun, Xiying Li2026-03-10💻 cs

SAGA: Selective Adaptive Gating for Efficient and Expressive Linear Attention

El artículo presenta SAGA, un mecanismo de atención lineal que utiliza puertas adaptativas selectivas y una descomposición eficiente para mitigar la redundancia de características y las limitaciones de rango bajo, logrando así un rendimiento superior y una mayor eficiencia computacional en comparación con los métodos existentes.

Yuan Cao, Dong Wang2026-03-10💻 cs

Cumulative Consensus Score: Label-Free and Model-Agnostic Evaluation of Object Detectors in Deployment

Este artículo presenta la Puntuación de Consenso Acumulativo (CCS), una métrica de evaluación libre de etiquetas y agnóstica al modelo que utiliza la consistencia espacial de las predicciones tras aumentos de datos para monitorear la fiabilidad de los detectores de objetos en entornos de despliegue sin necesidad de anotaciones de ground truth.

Avinaash Manoharan, Xiangyu Yin, Domenik Helm, Chih-Hong Cheng2026-03-10💻 cs

WHU-STree: A Multi-modal Benchmark Dataset for Street Tree Inventory

El artículo presenta WHU-STree, un nuevo conjunto de datos de referencia multimodal y rico en anotaciones recopilado en dos ciudades que integra nubes de puntos y imágenes de alta resolución para superar las limitaciones de los conjuntos existentes y facilitar más de diez tareas de inventario de árboles urbanos, como la clasificación de especies y la segmentación individual.

Ruifei Ding, Zhe Chen, Wen Fan + 5 more2026-03-10💻 cs

MICA: Multi-Agent Industrial Coordination Assistant

El artículo presenta MICA, un asistente de coordinación multiagente basado en percepción y voz que utiliza fusión de pasos adaptativa y verificación de seguridad para ofrecer asistencia industrial confiable y privada en entornos con recursos limitados.

Di Wen, Kunyu Peng, Junwei Zheng, Yufan Chen, Yitian Shi, Jiale Wei, Ruiping Liu, Kailun Yang, Rainer Stiefelhagen2026-03-10🤖 cs.LG

ORIC: Benchmarking Object Recognition under Contextual Incongruity in Large Vision-Language Models

Este trabajo introduce el marco ORIC y el conjunto de datos ORIC-Bench para evaluar y mejorar la capacidad de los Modelos de Lenguaje y Visión Grandes (LVLM) para reconocer objetos en contextos incongruos, demostrando que la incongruencia contextual es una fuente clave de incertidumbre y proponiendo técnicas de ajuste fino para mitigar estos errores.

Zhaoyang Li, Zhan Ling, Yuchen Zhou, Litian Gong, Erdem Bıyık, Hao Su2026-03-10🤖 cs.LG

← Anterior Siguiente →

cs.CV