Grounding Synthetic Data Generation With Vision and Language Models
Cet article propose un cadre fondé sur la vision et le langage pour générer et évaluer des données synthétiques interprétables en télédétection, introduisant le jeu de données ARAS400k qui démontre que l'entraînement combiné à des données réelles et synthétiques surpasse systématiquement les modèles basés uniquement sur des données réelles pour les tâches de segmentation sémantique et de légendage d'images.