Grounding Synthetic Data Generation With Vision and Language Models
Questo lavoro presenta un framework interpretabile basato su modelli visione-linguaggio per la generazione e valutazione di dati sintetici nel telerilevamento, introducendo il dataset ARAS400k che dimostra come l'addestramento su dati reali aumentati con dati sintetici superi le prestazioni dei modelli basati solo su dati reali per segmentazione semantica e descrizione di immagini.