DivCon: Divide and Conquer for Complex Numerical and Spatial Reasoning in Text-to-Image Generation
Het paper introduceert DivCon, een aanpak die complexe tekst-naar-beeldgeneratie verbetert door de taak op te splitsen in subtaken voor ruimtelijk redeneren en objectopbouw, waardoor lichtere modellen betere prestaties leveren dan eerdere methoden op benchmarks zoals HRS en NSR-1K.