Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization
Questo lavoro propone una strategia di post-addestramento basata sul reinforcement learning, che estende l'ottimizzazione della politica relativa di gruppo (GRPO) ai modelli multimodali unificati, per abilitare la generazione intercalata di testo e immagini senza dipendere da grandi dataset specifici, migliorando significativamente la coerenza e la qualità in compiti come il racconto visivo.