Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization
Diese Arbeit stellt eine Reinforcement-Learning-Strategie vor, die Unified Vision-Language-Modelle durch eine hybride Warm-up-Phase und eine erweiterte Group Relative Policy Optimization (GRPO) mit hybriden sowie prozessbasierten Belohnungen befähigt, hochwertige multimodale interleaved Ausgaben ohne große spezialisierte Datensätze zu generieren.