DivCon: Divide and Conquer for Complex Numerical and Spatial Reasoning in Text-to-Image Generation
El artículo presenta DivCon, un enfoque de dividir y conquistar que mejora la generación de imágenes texto-a-imagen al desacoplar la predicción de la disposición espacial y la síntesis de objetos en subtasas manejables, permitiendo a modelos de lenguaje ligeros lograr una precisión superior y una mejor calidad perceptual en prompts complejos con múltiples objetos.