GMAIL: Generative Modality Alignment for generated Image Learning
El artículo presenta GMAIL, un marco innovador que mejora el aprendizaje con imágenes generadas alineando explícitamente las modalidades real y sintética en un espacio latente común, lo que permite entrenar modelos de visión-lingüística con datos generados sin sufrir colapso de modos y logrando mejoras significativas en tareas como la descripción de imágenes y la recuperación cero-shot.