DivCon: Divide and Conquer for Complex Numerical and Spatial Reasoning in Text-to-Image Generation
本論文は、複雑な数値・空間推論を必要とするテキストから画像への生成タスクにおいて、大規模な閉源モデルへの依存を排除し、軽量モデルでも高精度なレイアウト予測と段階的な画像合成を実現する「DivCon」という分割統治アプローチを提案し、HRS や NSR-1K ベンチマークで既存手法を上回る性能と多物体・複雑な関係性を有するプロンプトに対する知覚品質の向上を実証したものである。