UME-R1: Exploring Reasoning-Driven Generative Multimodal Embeddings
Il paper presenta UME-R1, un framework innovativo per embedding multimodali generativi che, attraverso un addestramento in due fasi basato su reasoning e reinforcement learning, supera le limitazioni dei modelli discriminativi tradizionali ottenendo prestazioni superiori su un vasto set di benchmark.