To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models
Il paper M2RL analizza e confronta le strategie di addestramento misto e di fusione dei modelli per l'apprendimento per rinforzo con ricompense verificabili (RLVR) nei grandi modelli linguistici, dimostrando che i domini basati sul ragionamento mostrano effetti sinergici e che le due approcci possono essere integrati efficacemente per ottenere esperti multi-dominio.