DivCon: Divide and Conquer for Complex Numerical and Spatial Reasoning in Text-to-Image Generation
Il paper introduce DivCon, un approccio "dividi e conquista" che migliora il ragionamento numerico e spaziale nella generazione di immagini da testo suddividendo il processo in sottocompiti gestibili, permettendo anche a modelli linguistici leggeri di ottenere risultati superiori rispetto ai metodi precedenti su benchmark complessi.