cs.CV artículos | Gist.Science

Face Pyramid Vision Transformer

El artículo presenta la Face Pyramid Vision Transformer (FPVT), un modelo innovador que combina mecanismos de atención espacial, reducción de dimensionalidad y componentes convolucionales para lograr un rendimiento superior en reconocimiento facial con menos parámetros que los métodos existentes.

Khawar Islam, Muhammad Zaigham Zaheer, Arif Mahmood2026-02-24💻 cs

Learning to See the Elephant in the Room: Self-Supervised Context Reasoning in Humans and AI

Este estudio combina experimentos psicológicos y modelado computacional para demostrar que tanto los humanos como el modelo SeCo pueden aprender rápidamente a inferir objetos ocultos a partir de relaciones contextuales en escenas naturales sin supervisión explícita, destacando la importancia de las asociaciones contextuales para la comprensión visual.

Xiao Liu, Soumick Sarker, Ankur Sikarwar + 4 more2026-02-24🤖 cs.AI

RDFC-GAN: RGB-Depth Fusion CycleGAN for Indoor Depth Completion

El artículo presenta RDFC-GAN, una red neuronal de fusión RGB-profundidad basada en CycleGAN que supera las limitaciones de los métodos actuales para completar mapas de profundidad en interiores con grandes áreas faltantes, logrando resultados superiores en los conjuntos de datos NYU-Depth V2 y SUN RGB-D.

Haowen Wang, Zhengping Che, Yufan Yang + 6 more2026-02-24🤖 cs.AI

Adaptive Runge-Kutta Dynamics for Spatiotemporal Prediction

Este artículo presenta un modelo de predicción espacio-temporal basado en una red neuronal guiada por física que utiliza un método de Runge-Kutta adaptativo y un módulo de Fourier mejorado, logrando un rendimiento superior a los métodos actuales en tareas de pronóstico meteorológico y reconocimiento de acciones con una menor cantidad de parámetros.

Xuanle Zhao, Yue Sun, Ziyi Wang + 2 more2026-02-24🤖 cs.AI

Deep-Learning-Based Markerless Pose Estimation Systems in Gait Analysis: DeepLabCut Custom Training and the Refinement Function

Este estudio demuestra que el sistema de estimación de postura sin marcadores DeepLabCut, cuando se entrena de forma personalizada y se refina, supera a los modelos preentrenados y a OpenPose, ofreciendo una solución precisa y económica para el análisis de la marcha en entornos naturales.

Giulia Panconi, Stefano Grasso, Sara Guarducci + 3 more2026-02-24💻 cs

(PASS) Visual Prompt Locates Good Structure Sparsity through a Recurrent HyperNetwork

El artículo presenta PASS, un marco novedoso basado en hiperredes recurrentes que utiliza prompts visuales y estadísticas de pesos para identificar patrones de esparsidad estructural de alta calidad en redes neuronales, logrando mejoras significativas en precisión y velocidad de inferencia en comparación con métodos existentes.

Tianjin Huang, Fang Meng, Li Shen + 5 more2026-02-24🤖 cs.AI

MathScape: Benchmarking Multimodal Large Language Models in Real-World Mathematical Contexts

El artículo presenta MathScape, un nuevo benchmark que evalúa la capacidad de razonamiento matemático de los modelos de lenguaje multimodal en contextos reales mediante imágenes capturadas por humanos, revelando que incluso los modelos más avanzados tienen dificultades significativas en estas tareas y que el rendimiento en datos sintéticos no garantiza éxito en escenarios del mundo real.

Hao Liang, Linzhuang Sun, Minxuan Zhou + 7 more2026-02-24💬 cs.CL

$R^2$ -Mesh: Reinforcement Learning Powered Mesh Reconstruction via Geometry and Appearance Refinement

El artículo presenta $R^2$ -Mesh, un marco de aprendizaje por refuerzo que mejora la reconstrucción de mallas a partir de NeRF mediante la síntesis de pseudo-supervisión en vistas diversas y una selección dinámica de perspectivas basada en UCB para optimizar simultáneamente la geometría y la apariencia.

Haoyang Wang, Liming Liu, Xinggong Zhang2026-02-24💻 cs

CT-AGRG: Automated Abnormality-Guided Report Generation from 3D Chest CT Volumes

El artículo presenta CT-AGRG, un modelo que mejora la generación automática de informes médicos a partir de tomografías computarizadas torácicas 3D al priorizar la detección de anomalías específicas antes de redactar descripciones dirigidas, logrando así una mayor calidad y relevancia clínica en comparación con los métodos existentes.

Theo Di Piazza, Carole Lazarus, Olivier Nempont + 1 more2026-02-24⚡ eess

Geometry Distributions

El artículo propone una representación geométrica novedosa que modela las formas 3D como distribuciones utilizando modelos de difusión, superando las limitaciones de los enfoques basados en redes neuronales tradicionales para capturar detalles finos y manejar estructuras complejas sin restricciones de topología.

Biao Zhang, Jing Ren, Peter Wonka2026-02-24💻 cs

Speedy-Splat: Fast 3D Gaussian Splatting with Sparse Pixels and Sparse Primitives

El artículo presenta Speedy-Splat, un enfoque que acelera drásticamente la velocidad de renderizado, reduce el tamaño del modelo y disminuye el tiempo de entrenamiento de la técnica 3D Gaussian Splatting mediante la optimización del pipeline de renderizado para localizar Gaussians y la integración de una nueva técnica de poda.

Alex Hanson, Allen Tu, Geng Lin + 3 more2026-02-24💻 cs

MEt3R: Measuring Multi-View Consistency in Generated Images

El artículo presenta MEt3R, una nueva métrica independiente del muestreo que evalúa la consistencia multi-vista en imágenes generadas mediante la reconstrucción 3D densa y el análisis de similitud de características, permitiendo así comparar diversos métodos de generación de nuevas vistas y video.

Mohammad Asim, Christopher Wewer, Thomas Wimmer + 2 more2026-02-24⚡ eess

A polynomial formula for the perspective four points problem

Este artículo presenta una solución polinómica rápida y precisa para el problema de perspectiva de cuatro puntos, basada en una novedosa separación de variables que reduce el problema a uno de orientación absoluta, logrando ser un orden de magnitud más rápida que los algoritmos actuales con una precisión similar.

David Lehavi, Brian Osserman2026-02-24💻 cs

Learning Street View Representations with Spatiotemporal Contrast

Este trabajo propone un marco de aprendizaje auto-supervisado que utiliza atributos espaciales y temporales de imágenes de Street View para aprender representaciones urbanas invariantes, superando a los métodos existentes en tareas como la estimación socioeconómica y la percepción humano-ambiental.

Yong Li, Yingjing Huang, Gengchen Mai + 1 more2026-02-24🤖 cs.AI

SAMRI-2: A Memory-based Model for Cartilage and Meniscus Segmentation in 3D MRIs of the Knee Joint

Este estudio presenta SAMRI-2, un modelo de visión fundacional basado en memoria que, mediante una estrategia de mezcla híbrida y propagación de máscaras, supera a otros enfoques de deep learning en la segmentación precisa y eficiente de cartílago y menisco en resonancias magnéticas 3D de la rodilla, reduciendo significativamente el esfuerzo de anotación y los errores morfométricos.

Danielle L. Ferreira, Bruno A. A. Nunes, Xuzhe Zhang + 3 more2026-02-24⚡ eess

Exploring Interpretability for Visual Prompt Tuning with Cross-layer Concepts

Este artículo presenta IVPT, el primer marco de ajuste de prompts visuales interpretables que vincula los prompts a prototipos de conceptos semánticos agnósticos a la categoría para generar explicaciones en múltiples capas de la red y mejorar tanto la interpretabilidad como el rendimiento en tareas de clasificación.

Yubin Wang, Xinyang Jiang, De Cheng + 4 more2026-02-24💻 cs

Hier-COS: Making Deep Features Hierarchy-aware via Composition of Orthogonal Subspaces

Este artículo presenta Hier-COS, un marco novedoso que utiliza la composición de subespacios ortogonales para generar representaciones de características jerárquicamente conscientes y consistentes, superando las limitaciones de las métricas de evaluación existentes mediante la propuesta de HOPS y logrando un rendimiento superior en clasificación jerárquica y de granularidad fina.

Depanshu Sani, Saket Anand2026-02-24🤖 cs.LG

SphOR: A Representation Learning Perspective on Open-set Recognition for Identifying Unknown Classes in Deep Learning Models

El artículo presenta SpHOR, un enfoque de aprendizaje de representaciones que mejora el reconocimiento de conjunto abierto mediante el diseño de un espacio de características con embebidos de etiquetas ortogonales, restricciones esféricas y técnicas de regularización, logrando resultados de vanguardia en la identificación de clases desconocidas.

Nadarasar Bahavan, Sachith Seneviratne, Saman Halgamuge2026-02-24💻 cs

PSGait: Gait Recognition using Parsing Skeleton

El artículo presenta PSGait, un marco de reconocimiento de la marcha que introduce el "Parsing Skeleton" para fusionar esqueletos y siluetas, logrando una mayor precisión y generalización en escenarios reales con un menor costo computacional.

Hangrui Xu, Zhengxian Wu, Chuanrui Zhang + 4 more2026-02-24💻 cs

VideoMind: A Chain-of-LoRA Agent for Temporal-Grounded Video Reasoning

El artículo presenta VideoMind, un agente de video-idioma innovador que utiliza un flujo de trabajo basado en roles y un mecanismo de Cadena de LoRA para lograr un razonamiento temporalmente fundamentado en videos, demostrando un rendimiento superior en múltiples tareas de comprensión de video.

Ye Liu, Kevin Qinghong Lin, Chang Wen Chen + 1 more2026-02-24🤖 cs.AI

← Anterior Siguiente →

cs.CV