DREAM: Where Visual Understanding Meets Text-to-Image Generation
Le papier présente DREAM, un cadre unifié qui combine l'apprentissage de représentations visuelles et la génération d'images à partir de texte grâce à des techniques innovantes comme le réchauffement du masquage et le décodage aligné sémantiquement, permettant d'obtenir des performances supérieures à la fois en compréhension visuelle et en génération sans nécessiter de réordonnanceurs externes.