cs.CV artículos | Gist.Science

BoxSplitGen: A Generative Model for 3D Part Bounding Boxes in Varying Granularity

El artículo presenta BoxSplitGen, un marco generativo interactivo que facilita la creación 3D detallada mediante la división iterativa de cajas delimitadoras para refinar formas abstractas y su posterior conversión en mallas 3D de alta calidad.

Juil Koo, Wei-Tung Lin, Chanho Park + 2 more2026-02-25💻 cs

BBQ-to-Image: Numeric Bounding Box and Qolor Control in Large-Scale Text-to-Image Models

El trabajo presenta BBQ, un modelo de texto a imagen a gran escala que permite un control preciso sobre la ubicación, el tamaño y el color de los objetos mediante la condición directa de coordenadas de cuadros delimitadores numéricos y tripletes RGB dentro de un marco de texto estructurado, eliminando la necesidad de modificaciones arquitectónicas o optimización en tiempo de inferencia.

Eliran Kachlon, Alexander Visheratin, Nimrod Sarid + 6 more2026-02-25💻 cs

MatchED: Crisp Edge Detection Using End-to-End, Matching-based Supervision

El paper presenta MatchED, un módulo de supervisión basado en emparejamiento ligero y plug-and-play que permite el aprendizaje de extremo a extremo de mapas de bordes nítidos de un píxel de ancho, superando por primera vez el rendimiento de los métodos tradicionales que dependen de post-procesamiento no diferenciable.

Bedrettin Cetinkaya, Sinan Kalkan, Emre Akbas2026-02-25💻 cs

NGL-Prompter: Training-Free Sewing Pattern Estimation from a Single Image

El artículo presenta NGL-Prompter, un método sin entrenamiento que utiliza modelos de lenguaje visual grandes y un nuevo lenguaje intermedio llamado NGL para estimar patrones de costura a partir de una sola imagen, superando a los métodos anteriores en generalización a imágenes reales, reconstrucción de prendas multicapa y precisión geométrica.

Anna Badalyan, Pratheba Selvaraju, Giorgio Becherini + 3 more2026-02-25💻 cs

Onboard-Targeted Segmentation of Straylight in Space Camera Sensors

Este estudio presenta una metodología basada en inteligencia artificial que utiliza un modelo DeepLabV3 con backbone MobileNetV3, pre-entrenado en datos terrestres para superar la escasez de ejemplos espaciales, con el fin de segmentar la luz parásita en cámaras de satélites y evaluar su rendimiento mediante métricas personalizadas integradas en la navegación a bordo.

Riccardo Gallon, Fabian Schiemenz, Alessandra Menicucci + 1 more2026-02-25🤖 cs.AI

Monocular Endoscopic Tissue 3D Reconstruction with Multi-Level Geometry Regularization

Este artículo presenta un método innovador basado en 3D Gaussian Splatting con regularización geométrica multinivel y restricciones de deformación para lograr una reconstrucción 3D en tiempo real de tejidos endoscópicos deformables que combina superficies suaves y alta calidad visual.

Yangsen Chen, Hao Wang2026-02-25💻 cs

CleanStyle: Plug-and-Play Style Conditioning Purification for Text-to-Image Stylization

CleanStyle es un marco plug-and-play que elimina la fuga de contenido en la transferencia de estilo de modelos de difusión mediante la supresión dinámica de componentes de cola en las incrustaciones de estilo (CS-SVD) y el uso de una guía libre de clasificador específica del estilo (SS-CFG), logrando así una mayor fidelidad al prompt y una mejor calidad visual sin necesidad de reentrenamiento.

Xiaoman Feng, Mingkun Lei, Yang Wang + 2 more2026-02-25💻 cs

Bridging Physically Based Rendering and Diffusion Models with Stochastic Differential Equation

Este artículo propone un marco unificado basado en ecuaciones diferenciales estocásticas que integra la renderización física y los modelos de difusión, permitiendo un control preciso sobre las propiedades materiales y de iluminación en la generación de imágenes.

Junwei Shu, Wenjie Liu, Changgu Chen + 3 more2026-02-25💻 cs

Communication-Inspired Tokenization for Structured Image Representations

Este artículo presenta COMiT, un marco de tokenización discreta inspirado en la comunicación humana que construye secuencias de tokens estructuradas y centradas en objetos mediante actualizaciones recurrentes, mejorando significativamente la generalización composicional y el razonamiento relacional en comparación con los métodos anteriores.

Aram Davtyan, Yusuf Sahin, Yasaman Haghighi + 4 more2026-02-25🤖 cs.AI

PyVision-RL: Forging Open Agentic Vision Models via RL

PyVision-RL es un marco de aprendizaje por refuerzo que estabiliza el entrenamiento de modelos multimodales abiertos mediante una estrategia de muestreo y recompensas acumulativas para evitar el colapso de la interacción, logrando así agentes visuales eficientes y escalables para imágenes y videos.

Shitian Zhao, Shaoheng Lin, Ming Li + 4 more2026-02-25🤖 cs.AI

OrthoDiffusion: A Generalizable Multi-Task Diffusion Foundation Model for Musculoskeletal MRI Interpretation

El artículo presenta OrthoDiffusion, un modelo fundacional de difusión generalizable pre-entrenado de forma auto-supervisada en miles de resonancias magnéticas de rodilla no etiquetadas, que logra un rendimiento superior y robusto en tareas de segmentación anatómica y diagnóstico multi-etiqueta de lesiones musculoesqueléticas, demostrando además una alta capacidad de transferencia a otras articulaciones como el tobillo y el hombro incluso con datos etiquetados limitados.

Tian Lan, Lei Xu, Zimu Yuan + 8 more2026-02-25🤖 cs.AI

Federated Learning for Cross-Modality Medical Image Segmentation via Augmentation-Driven Generalization

Este trabajo propone un enfoque de aprendizaje federado que utiliza la augmentación de intensidad no lineal global (GIN) para superar las limitaciones de generalización entre modalidades en la segmentación de imágenes médicas, logrando mejoras significativas en el rendimiento sin comprometer la privacidad de los datos al no requerir datos multimodales pareados.

Sachin Dudda Nagaraju, Ashkan Moradi, Bendik Skarre Abrahamsen + 1 more2026-02-25💻 cs

Real-time Motion Segmentation with Event-based Normal Flow

Este trabajo propone un marco de segmentación de movimiento en tiempo real para visión basada en eventos que utiliza el flujo normal denso como representación intermedia para formular el problema como una minimización de energía, logrando una precisión superior y una aceleración de casi 800 veces en comparación con los métodos existentes.

Sheng Zhong, Zhongyang Ren, Xiya Zhu + 3 more2026-02-25💻 cs

VGGDrive: Empowering Vision-Language Models with Cross-View Geometric Grounding for Autonomous Driving

El artículo presenta VGGDrive, una arquitectura innovadora que integra un Enabler Geométrico 3D de Vista Cruzada (CVGE) en Modelos Visuales-Lingüísticos (VLM) para dotarlos de capacidades de comprensión geométrica 3D, mejorando así significativamente su rendimiento en tareas críticas de conducción autónoma como la percepción de riesgos y la planificación de trayectorias.

Jie Wang, Guang Li, Zhijian Huang + 4 more2026-02-25💻 cs

RU4D-SLAM: Reweighting Uncertainty in Gaussian Splatting SLAM for 4D Scene Reconstruction

El artículo presenta RU4D-SLAM, un marco robusto y eficiente que integra factores temporales, síntesis de imágenes borrosas y un mecanismo de reponderación semántica de incertidumbre para mejorar la reconstrucción de escenas 4D y el seguimiento en entornos dinámicos mediante la fusión de la representación 4D con Gaussian Splatting y SLAM.

Yangfan Zhao, Hanwei Zhang, Ke Huang + 3 more2026-02-25💻 cs

GatedCLIP: Gated Multimodal Fusion for Hateful Memes Detection

El artículo presenta GatedCLIP, un modelo de visión y lenguaje que mejora la detección de memes odiosos mediante un mecanismo de fusión gating dinámico y proyecciones aprendidas, logrando un rendimiento superior al de la base CLIP con solo 350.000 parámetros entrenables.

Yingying Guo, Ke Zhang, Zirong Zeng2026-02-25💻 cs

FLIM Networks with Bag of Feature Points

Este estudio presenta FLIM-BoFP, un método de estimación de filtros más rápido y eficiente que su predecesor FLIM-Cluster para redes FLIM, demostrando su superioridad en velocidad, efectividad y generalización para la detección de parásitos en imágenes de microscopía óptica sin necesidad de retropropagación.

João Deltregia Martinelli, Marcelo Luis Rodrigues Filho, Felipe Crispim da Rocha Salvagnini + 3 more2026-02-25💻 cs

Hybrid Fusion: One-Minute Efficient Training for Zero-Shot Cross-Domain Image Fusion

El artículo presenta "Hybrid Fusion", un marco híbrido eficiente que combina una red U-Net aprendible con un kernel de fusión clásico para lograr entrenamiento completo de resolución en solo un minuto, eliminando la brecha entre entrenamiento e inferencia y logrando un rendimiento de vanguardia con generalización cero-shot en diversas tareas de fusión de imágenes.

Ran Zhang, Xuanhua He, Liu Liu2026-02-25💻 cs

On the Explainability of Vision-Language Models in Art History

Este artículo examina cómo los métodos de Inteligencia Artificial Explicable pueden hacer legible el razonamiento visual de modelos como CLIP en contextos de historia del arte, revelando que su eficacia depende de la estabilidad conceptual y la disponibilidad representativa de las categorías analizadas.

Stefanie Schneider2026-02-25💻 cs

DA-Cal: Towards Cross-Domain Calibration in Semantic Segmentation

El artículo presenta DA-Cal, un marco de adaptación de dominio no supervisado que mejora la calibración de la red en la segmentación semántica mediante la optimización de pseudoetiquetas suaves y una red de temperatura meta, logrando un mayor rendimiento y fiabilidad en dominios objetivo sin sobrecarga en la inferencia.

Wangkai Li, Rui Sun, Zhaoyang Li + 2 more2026-02-25💻 cs

← Anterior Siguiente →