BBQ-to-Image: Numeric Bounding Box and Qolor Control in Large-Scale Text-to-Image Models

El trabajo presenta BBQ, un modelo de texto a imagen a gran escala que permite un control preciso sobre la ubicación, el tamaño y el color de los objetos mediante la condición directa de coordenadas de cuadros delimitadores numéricos y tripletes RGB dentro de un marco de texto estructurado, eliminando la necesidad de modificaciones arquitectónicas o optimización en tiempo de inferencia.

Eliran Kachlon, Alexander Visheratin, Nimrod Sarid + 6 more2026-02-25💻 cs

NGL-Prompter: Training-Free Sewing Pattern Estimation from a Single Image

El artículo presenta NGL-Prompter, un método sin entrenamiento que utiliza modelos de lenguaje visual grandes y un nuevo lenguaje intermedio llamado NGL para estimar patrones de costura a partir de una sola imagen, superando a los métodos anteriores en generalización a imágenes reales, reconstrucción de prendas multicapa y precisión geométrica.

Anna Badalyan, Pratheba Selvaraju, Giorgio Becherini + 3 more2026-02-25💻 cs

Onboard-Targeted Segmentation of Straylight in Space Camera Sensors

Este estudio presenta una metodología basada en inteligencia artificial que utiliza un modelo DeepLabV3 con backbone MobileNetV3, pre-entrenado en datos terrestres para superar la escasez de ejemplos espaciales, con el fin de segmentar la luz parásita en cámaras de satélites y evaluar su rendimiento mediante métricas personalizadas integradas en la navegación a bordo.

Riccardo Gallon, Fabian Schiemenz, Alessandra Menicucci + 1 more2026-02-25🤖 cs.AI

CleanStyle: Plug-and-Play Style Conditioning Purification for Text-to-Image Stylization

CleanStyle es un marco plug-and-play que elimina la fuga de contenido en la transferencia de estilo de modelos de difusión mediante la supresión dinámica de componentes de cola en las incrustaciones de estilo (CS-SVD) y el uso de una guía libre de clasificador específica del estilo (SS-CFG), logrando así una mayor fidelidad al prompt y una mejor calidad visual sin necesidad de reentrenamiento.

Xiaoman Feng, Mingkun Lei, Yang Wang + 2 more2026-02-25💻 cs

OrthoDiffusion: A Generalizable Multi-Task Diffusion Foundation Model for Musculoskeletal MRI Interpretation

El artículo presenta OrthoDiffusion, un modelo fundacional de difusión generalizable pre-entrenado de forma auto-supervisada en miles de resonancias magnéticas de rodilla no etiquetadas, que logra un rendimiento superior y robusto en tareas de segmentación anatómica y diagnóstico multi-etiqueta de lesiones musculoesqueléticas, demostrando además una alta capacidad de transferencia a otras articulaciones como el tobillo y el hombro incluso con datos etiquetados limitados.

Tian Lan, Lei Xu, Zimu Yuan + 8 more2026-02-25🤖 cs.AI

Federated Learning for Cross-Modality Medical Image Segmentation via Augmentation-Driven Generalization

Este trabajo propone un enfoque de aprendizaje federado que utiliza la augmentación de intensidad no lineal global (GIN) para superar las limitaciones de generalización entre modalidades en la segmentación de imágenes médicas, logrando mejoras significativas en el rendimiento sin comprometer la privacidad de los datos al no requerir datos multimodales pareados.

Sachin Dudda Nagaraju, Ashkan Moradi, Bendik Skarre Abrahamsen + 1 more2026-02-25💻 cs

VGGDrive: Empowering Vision-Language Models with Cross-View Geometric Grounding for Autonomous Driving

El artículo presenta VGGDrive, una arquitectura innovadora que integra un Enabler Geométrico 3D de Vista Cruzada (CVGE) en Modelos Visuales-Lingüísticos (VLM) para dotarlos de capacidades de comprensión geométrica 3D, mejorando así significativamente su rendimiento en tareas críticas de conducción autónoma como la percepción de riesgos y la planificación de trayectorias.

Jie Wang, Guang Li, Zhijian Huang + 4 more2026-02-25💻 cs

Hybrid Fusion: One-Minute Efficient Training for Zero-Shot Cross-Domain Image Fusion

El artículo presenta "Hybrid Fusion", un marco híbrido eficiente que combina una red U-Net aprendible con un kernel de fusión clásico para lograr entrenamiento completo de resolución en solo un minuto, eliminando la brecha entre entrenamiento e inferencia y logrando un rendimiento de vanguardia con generalización cero-shot en diversas tareas de fusión de imágenes.

Ran Zhang, Xuanhua He, Liu Liu2026-02-25💻 cs