NGL-Prompter: Training-Free Sewing Pattern Estimation from a Single Image

El artículo presenta NGL-Prompter, un método sin entrenamiento que utiliza modelos de lenguaje visual grandes y un nuevo lenguaje intermedio llamado NGL para estimar patrones de costura a partir de una sola imagen, superando a los métodos anteriores en generalización a imágenes reales, reconstrucción de prendas multicapa y precisión geométrica.

Anna Badalyan, Pratheba Selvaraju, Giorgio Becherini + 3 more2026-02-25💻 cs

Onboard-Targeted Segmentation of Straylight in Space Camera Sensors

Este estudio presenta una metodología basada en inteligencia artificial que utiliza un modelo DeepLabV3 con backbone MobileNetV3, pre-entrenado en datos terrestres para superar la escasez de ejemplos espaciales, con el fin de segmentar la luz parásita en cámaras de satélites y evaluar su rendimiento mediante métricas personalizadas integradas en la navegación a bordo.

Riccardo Gallon, Fabian Schiemenz, Alessandra Menicucci + 1 more2026-02-25🤖 cs.AI

CleanStyle: Plug-and-Play Style Conditioning Purification for Text-to-Image Stylization

CleanStyle es un marco plug-and-play que elimina la fuga de contenido en la transferencia de estilo de modelos de difusión mediante la supresión dinámica de componentes de cola en las incrustaciones de estilo (CS-SVD) y el uso de una guía libre de clasificador específica del estilo (SS-CFG), logrando así una mayor fidelidad al prompt y una mejor calidad visual sin necesidad de reentrenamiento.

Xiaoman Feng, Mingkun Lei, Yang Wang + 2 more2026-02-25💻 cs

OrthoDiffusion: A Generalizable Multi-Task Diffusion Foundation Model for Musculoskeletal MRI Interpretation

El artículo presenta OrthoDiffusion, un modelo fundacional de difusión generalizable pre-entrenado de forma auto-supervisada en miles de resonancias magnéticas de rodilla no etiquetadas, que logra un rendimiento superior y robusto en tareas de segmentación anatómica y diagnóstico multi-etiqueta de lesiones musculoesqueléticas, demostrando además una alta capacidad de transferencia a otras articulaciones como el tobillo y el hombro incluso con datos etiquetados limitados.

Tian Lan, Lei Xu, Zimu Yuan + 8 more2026-02-25🤖 cs.AI

Federated Learning for Cross-Modality Medical Image Segmentation via Augmentation-Driven Generalization

Este trabajo propone un enfoque de aprendizaje federado que utiliza la augmentación de intensidad no lineal global (GIN) para superar las limitaciones de generalización entre modalidades en la segmentación de imágenes médicas, logrando mejoras significativas en el rendimiento sin comprometer la privacidad de los datos al no requerir datos multimodales pareados.

Sachin Dudda Nagaraju, Ashkan Moradi, Bendik Skarre Abrahamsen + 1 more2026-02-25💻 cs

VGGDrive: Empowering Vision-Language Models with Cross-View Geometric Grounding for Autonomous Driving

El artículo presenta VGGDrive, una arquitectura innovadora que integra un Enabler Geométrico 3D de Vista Cruzada (CVGE) en Modelos Visuales-Lingüísticos (VLM) para dotarlos de capacidades de comprensión geométrica 3D, mejorando así significativamente su rendimiento en tareas críticas de conducción autónoma como la percepción de riesgos y la planificación de trayectorias.

Jie Wang, Guang Li, Zhijian Huang + 4 more2026-02-25💻 cs

Hybrid Fusion: One-Minute Efficient Training for Zero-Shot Cross-Domain Image Fusion

El artículo presenta "Hybrid Fusion", un marco híbrido eficiente que combina una red U-Net aprendible con un kernel de fusión clásico para lograr entrenamiento completo de resolución en solo un minuto, eliminando la brecha entre entrenamiento e inferencia y logrando un rendimiento de vanguardia con generalización cero-shot en diversas tareas de fusión de imágenes.

Ran Zhang, Xuanhua He, Liu Liu2026-02-25💻 cs

SpatiaLQA: A Benchmark for Evaluating Spatial Logical Reasoning in Vision-Language Models

Este trabajo presenta SpatiaLQA, un nuevo benchmark con más de 9.600 pares de preguntas y respuestas derivadas de escenas reales para evaluar el razonamiento lógico espacial en modelos de visión y lenguaje, demostrando que los modelos actuales tienen dificultades en esta tarea y proponiendo un método de razonamiento asistido por grafos de escena recursivos para mejorar su rendimiento.

Yuechen Xie, Xiaoyan Zhang, Yicheng Shan + 6 more2026-02-25🤖 cs.LG