cs.CV artículos | Gist.Science

NGL-Prompter: Training-Free Sewing Pattern Estimation from a Single Image

El artículo presenta NGL-Prompter, un método sin entrenamiento que utiliza modelos de lenguaje visual grandes y un nuevo lenguaje intermedio llamado NGL para estimar patrones de costura a partir de una sola imagen, superando a los métodos anteriores en generalización a imágenes reales, reconstrucción de prendas multicapa y precisión geométrica.

Anna Badalyan, Pratheba Selvaraju, Giorgio Becherini + 3 more2026-02-25💻 cs

Onboard-Targeted Segmentation of Straylight in Space Camera Sensors

Este estudio presenta una metodología basada en inteligencia artificial que utiliza un modelo DeepLabV3 con backbone MobileNetV3, pre-entrenado en datos terrestres para superar la escasez de ejemplos espaciales, con el fin de segmentar la luz parásita en cámaras de satélites y evaluar su rendimiento mediante métricas personalizadas integradas en la navegación a bordo.

Riccardo Gallon, Fabian Schiemenz, Alessandra Menicucci + 1 more2026-02-25🤖 cs.AI

Monocular Endoscopic Tissue 3D Reconstruction with Multi-Level Geometry Regularization

Este artículo presenta un método innovador basado en 3D Gaussian Splatting con regularización geométrica multinivel y restricciones de deformación para lograr una reconstrucción 3D en tiempo real de tejidos endoscópicos deformables que combina superficies suaves y alta calidad visual.

Yangsen Chen, Hao Wang2026-02-25💻 cs

CleanStyle: Plug-and-Play Style Conditioning Purification for Text-to-Image Stylization

CleanStyle es un marco plug-and-play que elimina la fuga de contenido en la transferencia de estilo de modelos de difusión mediante la supresión dinámica de componentes de cola en las incrustaciones de estilo (CS-SVD) y el uso de una guía libre de clasificador específica del estilo (SS-CFG), logrando así una mayor fidelidad al prompt y una mejor calidad visual sin necesidad de reentrenamiento.

Xiaoman Feng, Mingkun Lei, Yang Wang + 2 more2026-02-25💻 cs

Bridging Physically Based Rendering and Diffusion Models with Stochastic Differential Equation

Este artículo propone un marco unificado basado en ecuaciones diferenciales estocásticas que integra la renderización física y los modelos de difusión, permitiendo un control preciso sobre las propiedades materiales y de iluminación en la generación de imágenes.

Junwei Shu, Wenjie Liu, Changgu Chen + 3 more2026-02-25💻 cs

Communication-Inspired Tokenization for Structured Image Representations

Este artículo presenta COMiT, un marco de tokenización discreta inspirado en la comunicación humana que construye secuencias de tokens estructuradas y centradas en objetos mediante actualizaciones recurrentes, mejorando significativamente la generalización composicional y el razonamiento relacional en comparación con los métodos anteriores.

Aram Davtyan, Yusuf Sahin, Yasaman Haghighi + 4 more2026-02-25🤖 cs.AI

PyVision-RL: Forging Open Agentic Vision Models via RL

PyVision-RL es un marco de aprendizaje por refuerzo que estabiliza el entrenamiento de modelos multimodales abiertos mediante una estrategia de muestreo y recompensas acumulativas para evitar el colapso de la interacción, logrando así agentes visuales eficientes y escalables para imágenes y videos.

Shitian Zhao, Shaoheng Lin, Ming Li + 4 more2026-02-25🤖 cs.AI

OrthoDiffusion: A Generalizable Multi-Task Diffusion Foundation Model for Musculoskeletal MRI Interpretation

El artículo presenta OrthoDiffusion, un modelo fundacional de difusión generalizable pre-entrenado de forma auto-supervisada en miles de resonancias magnéticas de rodilla no etiquetadas, que logra un rendimiento superior y robusto en tareas de segmentación anatómica y diagnóstico multi-etiqueta de lesiones musculoesqueléticas, demostrando además una alta capacidad de transferencia a otras articulaciones como el tobillo y el hombro incluso con datos etiquetados limitados.

Tian Lan, Lei Xu, Zimu Yuan + 8 more2026-02-25🤖 cs.AI

Federated Learning for Cross-Modality Medical Image Segmentation via Augmentation-Driven Generalization

Este trabajo propone un enfoque de aprendizaje federado que utiliza la augmentación de intensidad no lineal global (GIN) para superar las limitaciones de generalización entre modalidades en la segmentación de imágenes médicas, logrando mejoras significativas en el rendimiento sin comprometer la privacidad de los datos al no requerir datos multimodales pareados.

Sachin Dudda Nagaraju, Ashkan Moradi, Bendik Skarre Abrahamsen + 1 more2026-02-25💻 cs

Real-time Motion Segmentation with Event-based Normal Flow

Este trabajo propone un marco de segmentación de movimiento en tiempo real para visión basada en eventos que utiliza el flujo normal denso como representación intermedia para formular el problema como una minimización de energía, logrando una precisión superior y una aceleración de casi 800 veces en comparación con los métodos existentes.

Sheng Zhong, Zhongyang Ren, Xiya Zhu + 3 more2026-02-25💻 cs

VGGDrive: Empowering Vision-Language Models with Cross-View Geometric Grounding for Autonomous Driving

El artículo presenta VGGDrive, una arquitectura innovadora que integra un Enabler Geométrico 3D de Vista Cruzada (CVGE) en Modelos Visuales-Lingüísticos (VLM) para dotarlos de capacidades de comprensión geométrica 3D, mejorando así significativamente su rendimiento en tareas críticas de conducción autónoma como la percepción de riesgos y la planificación de trayectorias.

Jie Wang, Guang Li, Zhijian Huang + 4 more2026-02-25💻 cs

RU4D-SLAM: Reweighting Uncertainty in Gaussian Splatting SLAM for 4D Scene Reconstruction

El artículo presenta RU4D-SLAM, un marco robusto y eficiente que integra factores temporales, síntesis de imágenes borrosas y un mecanismo de reponderación semántica de incertidumbre para mejorar la reconstrucción de escenas 4D y el seguimiento en entornos dinámicos mediante la fusión de la representación 4D con Gaussian Splatting y SLAM.

Yangfan Zhao, Hanwei Zhang, Ke Huang + 3 more2026-02-25💻 cs

GatedCLIP: Gated Multimodal Fusion for Hateful Memes Detection

El artículo presenta GatedCLIP, un modelo de visión y lenguaje que mejora la detección de memes odiosos mediante un mecanismo de fusión gating dinámico y proyecciones aprendidas, logrando un rendimiento superior al de la base CLIP con solo 350.000 parámetros entrenables.

Yingying Guo, Ke Zhang, Zirong Zeng2026-02-25💻 cs

FLIM Networks with Bag of Feature Points

Este estudio presenta FLIM-BoFP, un método de estimación de filtros más rápido y eficiente que su predecesor FLIM-Cluster para redes FLIM, demostrando su superioridad en velocidad, efectividad y generalización para la detección de parásitos en imágenes de microscopía óptica sin necesidad de retropropagación.

João Deltregia Martinelli, Marcelo Luis Rodrigues Filho, Felipe Crispim da Rocha Salvagnini + 3 more2026-02-25💻 cs

Hybrid Fusion: One-Minute Efficient Training for Zero-Shot Cross-Domain Image Fusion

El artículo presenta "Hybrid Fusion", un marco híbrido eficiente que combina una red U-Net aprendible con un kernel de fusión clásico para lograr entrenamiento completo de resolución en solo un minuto, eliminando la brecha entre entrenamiento e inferencia y logrando un rendimiento de vanguardia con generalización cero-shot en diversas tareas de fusión de imágenes.

Ran Zhang, Xuanhua He, Liu Liu2026-02-25💻 cs

On the Explainability of Vision-Language Models in Art History

Este artículo examina cómo los métodos de Inteligencia Artificial Explicable pueden hacer legible el razonamiento visual de modelos como CLIP en contextos de historia del arte, revelando que su eficacia depende de la estabilidad conceptual y la disponibilidad representativa de las categorías analizadas.

Stefanie Schneider2026-02-25💻 cs

DA-Cal: Towards Cross-Domain Calibration in Semantic Segmentation

El artículo presenta DA-Cal, un marco de adaptación de dominio no supervisado que mejora la calibración de la red en la segmentación semántica mediante la optimización de pseudoetiquetas suaves y una red de temperatura meta, logrando un mayor rendimiento y fiabilidad en dominios objetivo sin sobrecarga en la inferencia.

Wangkai Li, Rui Sun, Zhaoyang Li + 2 more2026-02-25💻 cs

MUSE: Harnessing Precise and Diverse Semantics for Few-Shot Whole Slide Image Classification

El marco MUSE mejora la clasificación de imágenes de diapositivas completas en escenarios de pocos ejemplos mediante la adaptación semántica a nivel de muestra y la integración estocástica de vistas textuales diversas generadas por modelos de lenguaje, superando así las limitaciones de los métodos basados en priores estáticos.

Jiahao Xu, Sheng Huang, Xin Zhang + 3 more2026-02-25💻 cs

SpatiaLQA: A Benchmark for Evaluating Spatial Logical Reasoning in Vision-Language Models

Este trabajo presenta SpatiaLQA, un nuevo benchmark con más de 9.600 pares de preguntas y respuestas derivadas de escenas reales para evaluar el razonamiento lógico espacial en modelos de visión y lenguaje, demostrando que los modelos actuales tienen dificultades en esta tarea y proponiendo un método de razonamiento asistido por grafos de escena recursivos para mejorar su rendimiento.

Yuechen Xie, Xiaoyan Zhang, Yicheng Shan + 6 more2026-02-25🤖 cs.LG

From Isolation to Integration: Building an Adaptive Expert Forest for Pre-Trained Model-based Class-Incremental Learning

El artículo presenta SAEF, un método de aprendizaje incremental de clases que organiza adaptadores en una jerarquía estructurada basada en relaciones semánticas para compartir conocimiento entre tareas y lograr un rendimiento superior sin olvidar lo aprendido anteriormente.

Ruiqi Liu, Boyu Diao, Hangda Liu + 3 more2026-02-25🤖 cs.LG

← Anterior Siguiente →