Grounding Synthetic Data Generation With Vision and Language Models
Este trabajo presenta un marco interpretable basado en modelos de visión y lenguaje para la generación y evaluación de datos sintéticos en teledetección, introduciendo el dataset ARAS400k que demuestra que la combinación de datos reales y sintéticos mejora consistentemente el rendimiento en tareas de segmentación semántica y descripción de imágenes.