DivCon: Divide and Conquer for Complex Numerical and Spatial Reasoning in Text-to-Image Generation
Die Arbeit stellt DivCon vor, eine Divide-and-Conquer-Methode, die Text-zu-Bild-Generierung durch die Entkopplung von Layout-Vorhersage und schrittweiser Bildsynthese verbessert, um auch mit leichten Sprachmodellen präzise numerische und räumliche Beziehungen bei komplexen Szenen mit mehreren Objekten zu erreichen.