cs.CV artículos | Gist.Science

No Labels, No Look-Ahead: Unsupervised Online Video Stabilization with Classical Priors

Este trabajo presenta un marco de estabilización de video en línea no supervisado que, al utilizar priores clásicos y un mecanismo de búfer multihilo, supera las limitaciones de los métodos basados en aprendizaje profundo y demuestra su eficacia en un nuevo conjunto de datos multimodal de UAV, logrando resultados superiores a los estabilizadores en línea actuales y comparables a los métodos fuera de línea.

Tao Liu, Gang Wan, Kan Ren + 1 more2026-02-27💻 cs

Partial recovery of meter-scale surface weather

Este estudio demuestra que es posible recuperar estadísticamente un componente predecible y físicamente coherente del clima superficial a escala de metros en todo Estados Unidos, combinando datos de observación terrestre y satelital con modelos atmosféricos a gran escala para generar campos de viento, temperatura y humedad a 10 metros de resolución que superan la precisión de los análisis actuales.

Jonathan Giezendanner, Qidong Yang, Eric Schmitt + 7 more2026-02-27🤖 cs.LG

Learning Continuous Wasserstein Barycenter Space for Generalized All-in-One Image Restoration

El artículo presenta BaryIR, un marco de aprendizaje de representaciones que mejora la generalización en la restauración de imágenes todo-en-uno mediante la alineación de características degradadas en un espacio de baricentro de Wasserstein para extraer contenidos invariantes y desacoplarlos de subespacios residuales específicos de la degradación.

Xiaole Tang, Xiaoyi He, Jiayi Xu + 2 more2026-02-27💻 cs

Latent Gaussian Splatting for 4D Panoptic Occupancy Tracking

El artículo presenta LaGS, un enfoque novedoso que combina el seguimiento end-to-end basado en cámaras con la predicción de ocupación panorámica multivista mediante un método de "splatting" gaussiano latente para lograr un seguimiento de ocupación 4D de vanguardia en entornos dinámicos.

Maximilian Luz, Rohit Mohan, Thomas Nürnberg + 3 more2026-02-27🤖 cs.AI

Phys-3D: Physics-Constrained Real-Time Crowd Tracking and Counting on Railway Platforms

El artículo presenta Phys-3D, un marco de seguimiento en tiempo real que integra detección, apariencia y razonamiento de movimiento 3D basado en principios físicos para lograr un conteo preciso de multitudes en plataformas de trenes a pesar de la oclusión y el movimiento de la cámara.

Bin Zeng, Johannes Künzel, Anna Hilsmann + 1 more2026-02-27💻 cs

FairQuant: Fairness-Aware Mixed-Precision Quantization for Medical Image Classification

El artículo presenta FairQuant, un marco de cuantización de precisión mixta consciente de la equidad que optimiza conjuntamente los pesos y la asignación de bits para mejorar el rendimiento en los grupos más desfavorecidos en la clasificación de imágenes médicas, manteniendo una precisión comparable a la de modelos de 8 bits uniformes bajo presupuestos de bits limitados.

Thomas Woergaard, Raghavendra Selvan2026-02-27🤖 cs.LG

ColoDiff: Integrating Dynamic Consistency With Content Awareness for Colonoscopy Video Generation

El paper presenta ColoDiff, un marco basado en difusión que genera videos de colonoscopia dinámicamente consistentes y con control preciso de atributos clínicos mediante módulos de flujo temporal y conciencia de contenido, logrando una generación en tiempo real que mitiga la escasez de datos y mejora tareas de análisis clínico.

Junhu Fu, Shuyu Liang, Wutong Li + 9 more2026-02-27🤖 cs.AI

Through BrokenEyes: How Eye Disorders Impact Face Detection?

Este trabajo presenta un marco computacional basado en el sistema BrokenEyes que simula cinco trastornos oculares comunes para analizar cómo degradan las representaciones de características en modelos de aprendizaje profundo, revelando alteraciones críticas en la detección facial cuantificadas mediante métricas como la energía de activación y la similitud coseno.

Prottay Kumar Adhikary2026-02-27💻 cs

Plug-and-Play Diffusion Meets ADMM: Dual-Variable Coupling for Robust Medical Image Reconstruction

Este trabajo propone un marco de reconstrucción de imágenes médicas que combina la acoplamiento de variables duales para garantizar la convergencia asintótica con una homogeneización espectral que corrige los artefactos estructurados, resolviendo así la compensación entre el sesgo y las alucinaciones en los métodos Plug-and-Play basados en difusión.

Chenhe Du, Xuanyu Tian, Qing Wu + 4 more2026-02-27⚡ eess

Multidimensional Task Learning: A Unified Tensor Framework for Computer Vision Tasks

Este artículo presenta el Aprendizaje Multidimensional de Tareas (MTL), un marco matemático unificado basado en MLPs de Einstein generalizados que operan directamente sobre tensores para superar las limitaciones de las formulaciones matriciales tradicionales en visión por computadora, demostrando que tareas como clasificación, segmentación y detección son casos especiales de una configuración dimensional única dentro de un espacio de tareas formalmente definido y más amplio.

Alaa El Ichi, Khalide Jbilou2026-02-27🔢 math

UniScale: Unified Scale-Aware 3D Reconstruction for Multi-View Understanding via Prior Injection for Robotic Perception

El artículo presenta UniScale, un marco unificado de reconstrucción 3D sensible a la escala que integra de forma flexible prios geométricos mediante un diseño modular para estimar simultáneamente parámetros intrínsecos, extrínsecos y profundidad métrica en aplicaciones robóticas, logrando una generalización robusta sin necesidad de entrenamiento desde cero.

Mohammad Mahdavian, Gordon Tan, Binbin Xu + 3 more2026-02-27💻 cs

Large Multimodal Models as General In-Context Classifiers

Este trabajo demuestra que los Modelos Multimodales Grandes (LMM) pueden igualar o superar a los modelos de visión-idioma contrastivos en tareas de clasificación mediante aprendizaje en contexto, proponiendo además el método sin entrenamiento CIRCLE para mejorar su rendimiento en escenarios de mundo abierto mediante la refinación iterativa de etiquetas pseudo.

Marco Garosi, Matteo Farina, Alessandro Conti + 2 more2026-02-27💻 cs

Skarimva: Skeleton-based Action Recognition is a Multi-view Application

Este trabajo demuestra que el uso de múltiples vistas para triangular esqueletos 3D más precisos mejora significativamente el reconocimiento de acciones basado en esqueletos, lo que sugiere que la calidad de los datos de entrada es actualmente un factor limitante y que la configuración multivista debería considerarse el estándar para futuras investigaciones.

Daniel Bermuth, Alexander Poeppel, Wolfgang Reif2026-02-27💻 cs

Spatio-Temporal Token Pruning for Efficient High-Resolution GUI Agents

El artículo presenta GUIPruner, un marco de poda de tokens sin entrenamiento que optimiza la eficiencia de los agentes de GUI de alta resolución mediante la eliminación de redundancias espaciotemporales, logrando una aceleración significativa y una reducción de costos computacionales sin comprometer el rendimiento.

Zhou Xu, Bowen Zhou, Qi Wang + 2 more2026-02-27🤖 cs.AI

Risk-Aware World Model Predictive Control for Generalizable End-to-End Autonomous Driving

El artículo presenta RaWMPC, un marco unificado de control predictivo basado en un modelo del mundo consciente del riesgo que permite la conducción autónoma de extremo a extremo generalizable y segura sin depender de demostraciones expertas, mediante la predicción de consecuencias de acciones y la selección de maniobras de bajo riesgo.

Jiangxin Sun, Feng Xue, Teng Long + 4 more2026-02-27🤖 cs.AI

Decomposing Private Image Generation via Coarse-to-Fine Wavelet Modeling

Este trabajo propone un marco de privacidad diferencial basado en el modelado wavelet que finetunea un tokenizador espectral en coeficientes de baja frecuencia para preservar la estructura global de las imágenes sensibles, mientras utiliza un modelo de superresolución público para añadir detalles de alta frecuencia, logrando así un equilibrio superior entre privacidad y calidad de imagen.

Jasmine Bayrooti, Weiwei Kong, Natalia Ponomareva + 3 more2026-02-27💻 cs

LineGraph2Road: Structural Graph Reasoning on Line Graphs for Road Network Extraction

El artículo presenta LineGraph2Road, un marco innovador que mejora la extracción automática de redes viales a partir de imágenes satelitales mediante el razonamiento estructural en grafos de líneas para predecir la conectividad, resolver cruces de múltiples niveles y lograr resultados de vanguardia en métricas topológicas.

Zhengyang Wei, Renzhi Jing, Yiyi He + 1 more2026-02-27💻 cs

PGVMS: A Prompt-Guided Unified Framework for Virtual Multiplex IHC Staining with Pathological Semantic Learning

El marco unificado PGVMS supera los desafíos actuales de la tinción IHC virtual multiplex mediante un mecanismo de guía adaptativa basado en modelos de lenguaje visual patológico, una estrategia de aprendizaje consciente de proteínas y una estrategia de aprendizaje consistente con prototipos para garantizar una transformación precisa y semánticamente alineada de imágenes H&E a múltiples representaciones IHC.

Fuqiang Chen, Ranran Zhang, Wanming Hu + 6 more2026-02-27💻 cs

Towards Long-Form Spatio-Temporal Video Grounding

Este artículo presenta ART-STVG, un nuevo enfoque basado en un Transformer autoregresivo con bancos de memoria y localización en cascada diseñado para superar los desafíos de la localización de objetivos en videos de larga duración (LF-STVG), superando significativamente a los métodos actuales.

Xin Gu, Bing Fan, Jiali Yao + 5 more2026-02-27💻 cs

ManifoldGD: Training-Free Hierarchical Manifold Guidance for Diffusion-Based Dataset Distillation

El artículo presenta ManifoldGD, un marco de destilación de datos libre de entrenamiento que utiliza priores de modelos de difusión y una guía jerárquica basada en variedades latentes para sintetizar conjuntos de datos compactos que preservan la diversidad, la fidelidad y la coherencia semántica de los conjuntos de datos originales.

Ayush Roy, Wei-Yang Alex Lee, Rudrasis Chakraborty + 1 more2026-02-27🤖 cs.LG

← Anterior Siguiente →