Investigating Text Insulation and Attention Mechanisms for Complex Visual Text Generation

Este artículo presenta TextCrafter, un marco de generación de texto visual complejo que integra mecanismos de aislamiento y atención selectiva mediante aprendizaje por refuerzo para lograr un rendimiento superior en la generación de texto preciso y sin alucinaciones, superando a modelos industriales a pesar de utilizar recursos computacionales significativamente menores.

Ying Tai, Nikai Du, Rui Xie + 5 more2026-03-02💻 cs

FermatSyn: SAM2-Enhanced Bidirectional Mamba with Isotropic Spiral Scanning for Multi-Modal Medical Image Synthesis

FermatSyn es un nuevo método para la síntesis de imágenes médicas multimodales que combina un codificador basado en SAM2, un módulo de muestreo residual jerárquico y una estrategia de escaneo en espiral de Fermat dentro de una arquitectura Mamba bidireccional para lograr una consistencia anatómica global y detalles locales de alta fidelidad, superando a los métodos actuales en métricas de calidad y utilidad clínica.

Feng Yuan2026-03-02⚡ eess

Cora: Correspondence-aware image editing using few step diffusion

Cora es un nuevo marco de edición de imágenes basado en difusión en pocos pasos que utiliza corrección de ruido consciente de la correspondencia y mapas de atención interpolados para lograr deformaciones no rígidas y modificaciones de objetos precisas, manteniendo la estructura, la textura y la identidad de la imagen original mejor que los métodos existentes.

Amirhossein Alimohammadi, Aryan Mikaeili, Sauradip Nag + 3 more2026-03-02💻 cs

SelvaBox: A high-resolution dataset for tropical tree crown detection

El artículo presenta SelvaBox, el conjunto de datos abierto más grande para la detección de copas de árboles tropicales en imágenes de drones de alta resolución, el cual, al contener más de 83.000 etiquetas manuales, demuestra que los modelos entrenados con él logran un rendimiento competitivo y superior en la detección de copas tanto en datos no vistos como en entornos multirresolución.

Hugo Baudchon, Arthur Ouaknine, Martin Weiss + 5 more2026-03-02💻 cs

Knowledge-Guided Machine Learning: Illustrating the use of Explainable Boosting Machines to Identify Overshooting Tops in Satellite Imagery

Este trabajo presenta el uso de Máquinas de Refuerzo Explicables (EBM) como un algoritmo de aprendizaje automático interpretable y guiado por el conocimiento humano para identificar cúspides sobresalientes en imágenes satelitales, demostrando que, aunque su precisión es inferior a la de modelos más complejos, ofrece una estrategia transparente y colaborativa crucial para aplicaciones meteorológicas de alto riesgo.

Nathan Mitchell, Lander Ver Hoef, Imme Ebert-Uphoff + 4 more2026-03-02🤖 cs.LG

pFedMMA: Personalized Federated Fine-Tuning with Multi-Modal Adapter for Vision-Language Models

El artículo presenta pFedMMA, un marco de aprendizaje federado personalizado que utiliza adaptadores multimodales para lograr un equilibrio óptimo entre la personalización local y la generalización global en modelos de visión y lenguaje, superando a los métodos existentes mediante una estrategia de comunicación eficiente que comparte únicamente proyecciones alineadas.

Sajjad Ghiasvand, Mahnoosh Alizadeh, Ramtin Pedarsani2026-03-02🤖 cs.LG