Composition-Grounded Data Synthesis for Visual Reasoning
Il paper presenta COGS, un framework di sintesi dati basato sulla composizione che potenzia le capacità di ragionamento dei modelli linguistici multimodali preaddestrati su domini artificiali come grafici e pagine web, decomponendo le domande in fattori primitici per generare coppie domanda-risposta sintetiche addestrate con ricompense di processo a livello fattoriale.