cs.CV artículos | Gist.Science

FTSplat: Feed-forward Triangle Splatting Network

FTSplat es un marco de trabajo de alimentación directa que genera superficies triangulares continuas y listas para simulación a partir de imágenes multivista en una sola pasada, superando las limitaciones de optimización por escena y la falta de geometría explícita de métodos anteriores como NeRF y 3DGS.

Xiong Jinlin, Li Can, Shen Jiawei, Qi Zhigang, Sun Lei, Zhao Dongyang2026-03-09💻 cs

OD-RASE: Ontology-Driven Risk Assessment and Safety Enhancement for Autonomous Driving

El artículo presenta OD-RASE, un marco basado en ontologías y modelos de lenguaje visual que identifica proactivamente estructuras viales peligrosas y genera propuestas de mejora para aumentar la seguridad de los sistemas de conducción autónoma.

Kota Shimomura, Masaki Nambata, Atsuya Ishikawa, Ryota Mimura, Takayuki Kawabuchi, Takayoshi Yamashita, Koki Inoue2026-03-09💻 cs

Facial Expression Recognition Using Residual Masking Network

Este artículo presenta una Red de Enmascaramiento Residual que combina redes residuales profundas con una arquitectura tipo Unet para mejorar el reconocimiento de expresiones faciales mediante un mecanismo de atención que refina los mapas de características, logrando así un rendimiento de vanguardia en los conjuntos de datos FER2013 y VEMO.

Luan Pham, The Huynh Vu, Tuan Anh Tran2026-03-09🤖 cs.AI

SLER-IR: Spherical Layer-wise Expert Routing for All-in-One Image Restoration

El artículo presenta SLER-IR, un marco de restauración de imágenes todo-en-uno que utiliza un enrutamiento de expertos esférico por capas y una fusión de granularidad global-local para superar la interferencia de características y mejorar el rendimiento en diversas degradaciones.

Peng Shurui, Xin Lin, Shi Luo, Jincen Ou, Dizhe Zhang, Lu Qi, Truong Nguyen, Chao Ren2026-03-09💻 cs

Adaptive Radial Projection on Fourier Magnitude Spectrum for Document Image Skew Estimation

Este artículo presenta un nuevo método robusto para la estimación de la inclinación en documentos escaneados mediante la proyección radial adaptativa del espectro de magnitud de Fourier, junto con la introducción del conjunto de datos DISE-2021 y una demostración de su superioridad frente a otros enfoques existentes.

Luan Pham, Phu Hao Hoang, Xuan Toan Mai, Tuan Anh Tran2026-03-09💻 cs

LucidNFT: LR-Anchored Multi-Reward Preference Optimization for Generative Real-World Super-Resolution

El artículo presenta LucidNFT, un marco de optimización de preferencias basado en aprendizaje por refuerzo que aborda los problemas de fidelidad y colapso de ventajas en la super-resolución de imágenes reales mediante la introducción de un evaluador de consistencia robusto, una estrategia de normalización de ventajas desacoplada y un conjunto de datos a gran escala de degradaciones reales.

Song Fei, Tian Ye, Sixiang Chen, Zhaohu Xing, Jianyu Lai, Lei Zhu2026-03-09💻 cs

Energy-Driven Adaptive Visual Token Pruning for Efficient Vision-Language Models

El artículo presenta E-AdaPrune, un marco de poda adaptativa impulsado por la energía que optimiza la eficiencia de los modelos de visión y lenguaje al asignar dinámicamente la cantidad de tokens visuales según la densidad de información de cada imagen, logrando mejoras en el rendimiento sin añadir parámetros entrenables.

Jialuo He, Huangxun Chen2026-03-09🤖 cs.AI

Unify the Views: View-Consistent Prototype Learning for Few-Shot Segmentation

El artículo presenta VINE, un marco unificado para la segmentación con pocos ejemplos que mejora la consistencia estructural y la discriminación de primer plano mediante un grafo espacial-visual y priores discriminativos, integrando características de ResNet y SAM para generar máscaras precisas incluso ante variaciones de perspectiva y apariencia.

Hongli Liu, Yu Wang, Shengjie Zhao2026-03-09💻 cs

OVGGT: O(1) Constant-Cost Streaming Visual Geometry Transformer

El artículo presenta OVGGT, un marco de entrenamiento gratuito que permite la inferencia de geometría 3D en videos de flujo continuo de longitud arbitraria con un costo de memoria y computación constante, superando las limitaciones de los modelos existentes mediante el uso de una caché selectiva y una protección dinámica de anclajes para evitar la deriva geométrica.

Si-Yu Lu, Po-Ting Chen, Hui-Che Hsu, Sin-Ye Jhong, Wen-Huang Cheng, Yung-Yao Chen2026-03-09💻 cs

Exploring Open-Vocabulary Object Recognition in Images using CLIP

Este artículo propone un marco de reconocimiento de objetos de vocabulario abierto que combina segmentación y reconocimiento mediante CLIP y una alternativa basada en CNN/MLP, logrando un rendimiento superior en tareas de detección sin necesidad de reentrenamiento complejo.

Wei Yu Chen, Ying Dai2026-03-09💻 cs

Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models

Este artículo presenta Skeleton-to-Image Encoding (S2I), un método innovador que transforma secuencias de esqueletos 3D en representaciones similares a imágenes para aprovechar modelos de visión preentrenados en el aprendizaje auto-supervisado de esqueletos, logrando así un formato unificado que mejora el rendimiento y la generalización en tareas de reconocimiento de acciones.

Siyuan Yang, Jun Liu, Hao Cheng, Chong Wang, Shijian Lu, Hedvig Kjellstrom, Weisi Lin, Alex C. Kot2026-03-09🤖 cs.AI

CR-QAT: Curriculum Relational Quantization-Aware Training for Open-Vocabulary Object Detection

El artículo presenta CR-QAT, un marco de entrenamiento cuantizado que combina una optimización curricular progresiva y destilación de conocimiento relacional centrada en texto para mitigar la degradación de la alineación visión-idioma en la detección de objetos de vocabulario abierto bajo cuantización extrema de 4 bits, logrando mejoras significativas en los benchmarks LVIS y COCO.

Jinyeong Park, Donghwa Kim, Brent ByungHoon Kang, Hyeongboo Baek, Jibum Kim2026-03-09💻 cs

PROBE: Probabilistic Occupancy BEV Encoding with Analytical Translation Robustness for 3D Place Recognition

PROBE es un descriptor de reconocimiento de lugares basado en LiDAR que, sin necesidad de aprendizaje, modela la ocupación en vistas aéreas como variables aleatorias de Bernoulli y utiliza una marginalización analítica para lograr una robustez ante traslaciones y generalización entre sensores, logrando un rendimiento superior entre los métodos no supervisados en múltiples conjuntos de datos.

Jinseop Lee, Byoungho Lee, Gichul Yoo2026-03-09💻 cs

Imagine How To Change: Explicit Procedure Modeling for Change Captioning

El artículo presenta ProCap, un marco innovador que mejora la generación de descripciones de cambios visuales al reformular el modelado estático de pares de imágenes en una representación dinámica de procedimientos mediante un diseño de dos etapas que aprende y codifica la evolución temporal implícita entre imágenes.

Jiayang Sun, Zixin Guo, Min Cao, Guibo Zhu, Jorma Laaksonen2026-03-09🤖 cs.AI

Breaking Smooth-Motion Assumptions: A UAV Benchmark for Multi-Object Tracking in Complex and Adverse Conditions

El artículo presenta DynUAV, un nuevo benchmark para el seguimiento de múltiples objetos desde la perspectiva de drones que aborda las limitaciones de los conjuntos de datos existentes al introducir secuencias con movimientos agresivos, cambios drásticos de escala y desenfoque por movimiento, evaluando así la capacidad de los rastreadores actuales en condiciones adversas y complejas.

Jingtao Ye, Kexin Zhang, Xunchi Ma, Yuehan Li, Guangming Zhu, Peiyi Shen, Linhua Jiang, Xiangdong Zhang, Liang Zhang2026-03-09💻 cs

Towards High-resolution and Disentangled Reference-based Sketch Colorization

Este artículo presenta un marco de trabajo de doble rama con regularización Gram y una red de etiquetado específica para anime que minimiza directamente el desplazamiento de distribución entre los datos de entrenamiento y prueba, logrando así un estado del arte en colorización de bocetos de alta resolución y controlable.

Dingkun Yan, Xinrui Wang, Ru Wang, Zhuoru Li, Jinze Yu, Yusuke Iwasawa, Yutaka Matsuo, Jiaxian Guo2026-03-09💻 cs

HarvestFlex: Strawberry Harvesting via Vision-Language-Action Policy Adaptation in the Wild

Este trabajo presenta el primer estudio sobre la transferencia de políticas de visión-idioma-acción (VLA) a la cosecha real de fresas en invernadero, logrando un sistema de bucle cerrado con un 74% de éxito mediante el uso de sensores RGB, demostraciones teleoperadas y la adaptación de modelos como pi_0.5, sin depender de nubes de puntos de profundidad ni calibración geométrica explícita.

Ziyang Zhao, Shuheng Wang, Zhonghua Miao, Ya Xiong2026-03-09💻 cs

Technical Report: Automated Optical Inspection of Surgical Instruments

Este informe presenta un sistema de inspección óptica automatizada basado en arquitecturas de aprendizaje profundo (YOLOv8, ResNet-152 y EfficientNet-b4) para detectar defectos críticos en instrumentos quirúrgicos fabricados en Pakistán, utilizando un conjunto de datos de 4.414 imágenes y colaborando con líderes de la industria local para mejorar la seguridad del paciente y la calidad de fabricación.

Zunaira Shafqat, Atif Aftab Ahmed Jilani, Qurrat Ul Ain2026-03-09🤖 cs.AI

MM-ISTS: Cooperating Irregularly Sampled Time Series Forecasting with Multimodal Vision-Text LLMs

El artículo presenta MM-ISTS, un marco multimodal que utiliza modelos de lenguaje grandes de visión y texto para mejorar la predicción de series temporales muestreadas irregularmente mediante la integración de representaciones temporales, visuales y textuales, un mecanismo de codificación en dos etapas y un módulo de alineación multimodal.

Zhi Lei, Chenxi Liu, Hao Miao, Wanghui Qiu, Bin Yang, Chenjuan Guo2026-03-09🤖 cs.AI

RePer-360: Releasing Perspective Priors for 360 $^\circ$ Depth Estimation via Self-Modulation

El artículo presenta RePer-360, un marco de auto-modulación consciente de la distorsión que adapta modelos de profundidad fundacionales entrenados en imágenes perspetivas al dominio panorámico de 360° preservando sus conocimientos previos mediante un módulo de guía geométrica y un mecanismo de auto-condicionamiento, logrando así un rendimiento superior con solo el 1% de los datos de entrenamiento.

Cheng Guan, Chunyu Lin, Zhijie Shen, Junsong Zhang, Jiyuan Wang2026-03-09💻 cs

← Anterior Siguiente →

cs.CV