cs.CV artículos | Gist.Science

Geometry Distributions

El artículo propone una representación geométrica novedosa que modela las formas 3D como distribuciones utilizando modelos de difusión, superando las limitaciones de los enfoques basados en redes neuronales tradicionales para capturar detalles finos y manejar estructuras complejas sin restricciones de topología.

Biao Zhang, Jing Ren, Peter Wonka2026-02-24💻 cs

Speedy-Splat: Fast 3D Gaussian Splatting with Sparse Pixels and Sparse Primitives

El artículo presenta Speedy-Splat, un enfoque que acelera drásticamente la velocidad de renderizado, reduce el tamaño del modelo y disminuye el tiempo de entrenamiento de la técnica 3D Gaussian Splatting mediante la optimización del pipeline de renderizado para localizar Gaussians y la integración de una nueva técnica de poda.

Alex Hanson, Allen Tu, Geng Lin + 3 more2026-02-24💻 cs

MEt3R: Measuring Multi-View Consistency in Generated Images

El artículo presenta MEt3R, una nueva métrica independiente del muestreo que evalúa la consistencia multi-vista en imágenes generadas mediante la reconstrucción 3D densa y el análisis de similitud de características, permitiendo así comparar diversos métodos de generación de nuevas vistas y video.

Mohammad Asim, Christopher Wewer, Thomas Wimmer + 2 more2026-02-24⚡ eess

A polynomial formula for the perspective four points problem

Este artículo presenta una solución polinómica rápida y precisa para el problema de perspectiva de cuatro puntos, basada en una novedosa separación de variables que reduce el problema a uno de orientación absoluta, logrando ser un orden de magnitud más rápida que los algoritmos actuales con una precisión similar.

David Lehavi, Brian Osserman2026-02-24💻 cs

Learning Street View Representations with Spatiotemporal Contrast

Este trabajo propone un marco de aprendizaje auto-supervisado que utiliza atributos espaciales y temporales de imágenes de Street View para aprender representaciones urbanas invariantes, superando a los métodos existentes en tareas como la estimación socioeconómica y la percepción humano-ambiental.

Yong Li, Yingjing Huang, Gengchen Mai + 1 more2026-02-24🤖 cs.AI

SAMRI-2: A Memory-based Model for Cartilage and Meniscus Segmentation in 3D MRIs of the Knee Joint

Este estudio presenta SAMRI-2, un modelo de visión fundacional basado en memoria que, mediante una estrategia de mezcla híbrida y propagación de máscaras, supera a otros enfoques de deep learning en la segmentación precisa y eficiente de cartílago y menisco en resonancias magnéticas 3D de la rodilla, reduciendo significativamente el esfuerzo de anotación y los errores morfométricos.

Danielle L. Ferreira, Bruno A. A. Nunes, Xuzhe Zhang + 3 more2026-02-24⚡ eess

Exploring Interpretability for Visual Prompt Tuning with Cross-layer Concepts

Este artículo presenta IVPT, el primer marco de ajuste de prompts visuales interpretables que vincula los prompts a prototipos de conceptos semánticos agnósticos a la categoría para generar explicaciones en múltiples capas de la red y mejorar tanto la interpretabilidad como el rendimiento en tareas de clasificación.

Yubin Wang, Xinyang Jiang, De Cheng + 4 more2026-02-24💻 cs

Hier-COS: Making Deep Features Hierarchy-aware via Composition of Orthogonal Subspaces

Este artículo presenta Hier-COS, un marco novedoso que utiliza la composición de subespacios ortogonales para generar representaciones de características jerárquicamente conscientes y consistentes, superando las limitaciones de las métricas de evaluación existentes mediante la propuesta de HOPS y logrando un rendimiento superior en clasificación jerárquica y de granularidad fina.

Depanshu Sani, Saket Anand2026-02-24🤖 cs.LG

SphOR: A Representation Learning Perspective on Open-set Recognition for Identifying Unknown Classes in Deep Learning Models

El artículo presenta SpHOR, un enfoque de aprendizaje de representaciones que mejora el reconocimiento de conjunto abierto mediante el diseño de un espacio de características con embebidos de etiquetas ortogonales, restricciones esféricas y técnicas de regularización, logrando resultados de vanguardia en la identificación de clases desconocidas.

Nadarasar Bahavan, Sachith Seneviratne, Saman Halgamuge2026-02-24💻 cs

PSGait: Gait Recognition using Parsing Skeleton

El artículo presenta PSGait, un marco de reconocimiento de la marcha que introduce el "Parsing Skeleton" para fusionar esqueletos y siluetas, logrando una mayor precisión y generalización en escenarios reales con un menor costo computacional.

Hangrui Xu, Zhengxian Wu, Chuanrui Zhang + 4 more2026-02-24💻 cs

VideoMind: A Chain-of-LoRA Agent for Temporal-Grounded Video Reasoning

El artículo presenta VideoMind, un agente de video-idioma innovador que utiliza un flujo de trabajo basado en roles y un mecanismo de Cadena de LoRA para lograr un razonamiento temporalmente fundamentado en videos, demostrando un rendimiento superior en múltiples tareas de comprensión de video.

Ye Liu, Kevin Qinghong Lin, Chang Wen Chen + 1 more2026-02-24🤖 cs.AI

ShapeShift: Text-to-Mosaic Synthesis via Semantic Phase-Field Guidance

ShapeShift es un método que sintetiza configuraciones de objetos rígidos sin superposiciones que representan conceptos semánticos mediante el uso de características de modelos de difusión para guiar anisotrópicamente la resolución de conflictos geométricos, logrando así un equilibrio entre validez física y claridad semántica.

Vihaan Misra, Peter Schaldenbrand, Jean Oh2026-02-24💻 cs

Can Vision-Language Models Answer Face to Face Questions in the Real-World?

Este trabajo introduce el conjunto de datos y punto de referencia Qualcomm Interactive Video Dataset (IVD) para evaluar la capacidad de los modelos de visión-idioma para responder preguntas en tiempo real sobre escenas del mundo real, demostrando que, aunque los modelos actuales están muy por detrás del rendimiento humano, el ajuste fino puede reducir significativamente esta brecha en muchas habilidades perceptivas.

Reza Pourreza, Rishit Dagli, Apratim Bhattacharyya + 3 more2026-02-24💻 cs

Learn by Reasoning: Analogical Weight Generation for Few-Shot Class-Incremental Learning

Este trabajo propone un método de generación de pesos analógicos inspirado en el cerebro, denominado BiAG, que permite el aprendizaje incremental de pocas clases sin ajuste fino de parámetros al derivar pesos de nuevas clases a partir de conocimientos previos mediante mecanismos de atención y conversión semántica, logrando así un rendimiento superior en conjuntos de datos como miniImageNet, CUB-200 y CIFAR-100.

Jizhou Han, Chenhao Ding, Yuhang He + 4 more2026-02-24🤖 cs.AI

JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization

Este artículo presenta JavisDiT, un transformador de difusión unificado que genera audio y video sincronizados de alta calidad mediante un prior jerárquico espaciotemporal, respaldado por un nuevo benchmark y métricas de evaluación diseñados para escenarios del mundo real.

Kai Liu, Wei Li, Lai Chen + 8 more2026-02-24⚡ eess

Order Matters: On Parameter-Efficient Image-to-Video Probing for Recognizing Nearly Symmetric Actions

El artículo presenta STEP, un método de sondeo ligero que incorpora codificaciones posicionales y atención para capturar el orden temporal, superando tanto a las técnicas de ajuste fino eficientes como a los modelos completamente entrenados en la clasificación de acciones casi simétricas para la interacción humano-robot.

Thinesh Thiyakesan Ponbagavathi, Alina Roitberg2026-02-24💻 cs

Noise-Aware Generalization: Robustness to In-Domain Noise and Out-of-Domain Generalization

El artículo propone DL4ND, el primer método diseñado específicamente para la generalización consciente del ruido (NAG), que aprovecha la mayor variación de las muestras ruidosas entre dominios para superar las limitaciones de los enfoques existentes y lograr mejoras significativas en la generalización.

Siqi Wang, Aoming Liu, Bryan A. Plummer2026-02-24🤖 cs.LG

nnLandmark: A Self-Configuring Method for 3D Medical Landmark Detection

El artículo presenta nnLandmark, un marco de trabajo autoconfigurable que combina componentes de nnU-Net para lograr un rendimiento de vanguardia en la detección de puntos de referencia médicos 3D, ofreciendo una solución lista para usar que elimina la necesidad de ajuste manual de hiperparámetros y establece un estándar unificado para la evaluación y comparación de métodos en este campo.

Alexandra Ertl, Stefan Denner, Robin Peretzke + 8 more2026-02-24💻 cs

Not All Pixels Are Equal: Confidence-Guided Attention for Feature Matching

Este artículo propone un método de coincidencia de características semidensas que mejora el rendimiento al utilizar una atención guiada por confianza para eliminar el ruido de regiones irrelevantes, ajustando dinámicamente las distribuciones de atención y reescalando las características de valor basándose en mapas de confianza precalculados.

Dongyue Li2026-02-24💻 cs

GRILL: Restoring Gradient Signal in Ill-Conditioned Layers for More Effective Adversarial Attacks on Autoencoders

El artículo presenta GRILL, una técnica que restaura las señales de gradiente en capas mal condicionadas de los autoencodadores para superar las limitaciones de los ataques adversarios existentes y permitir una evaluación más rigurosa de su robustez.

Chethan Krishnamurthy Ramanaik, Arjun Roy, Tobias Callies + 1 more2026-02-24🤖 cs.AI

← Anterior Siguiente →