UME-R1: Exploring Reasoning-Driven Generative Multimodal Embeddings
Ce papier présente UME-R1, un cadre pionnier d'encodage multimodal génératif qui, grâce à une stratégie d'entraînement combinant micro-ajustement supervisé et apprentissage par renforcement, exploite les capacités de raisonnement des modèles multimodaux pour surpasser les méthodes discriminatives traditionnelles sur 78 tâches.