Composition-Grounded Data Synthesis for Visual Reasoning
Cet article présente COGS, un cadre de synthèse de données ancré sur la composition qui améliore les capacités de raisonnement des modèles de langage multimodaux préentraînés en décomposant et recomposant systématiquement des questions semences pour générer des données synthétiques, permettant ainsi des gains significatifs sur des tâches de raisonnement visuel complexes comme l'analyse de graphiques et de documents web.