Composition-Grounded Data Synthesis for Visual Reasoning
Die Arbeit stellt COGS vor, ein dateneffizientes Framework, das durch die Zerlegung von Seed-Fragen in primitive Faktoren und deren systematische Neukombination mit synthetischen Bildern große Mengen an Trainingsdaten für das visuelle Schlussfolgern von Multi-modalen Large Language Models generiert und so deren Leistungsfähigkeit insbesondere bei komplexen, zusammengesetzten Aufgaben erheblich steigert.