DRA-GRPO: Your GRPO Needs to Know Diverse Reasoning Paths for Mathematical Reasoning
Il paper presenta DRA-GRPO, un framework che migliora il ragionamento matematico dei modelli linguistici integrando una calibrazione della diversità basata sull'informazione mutua sottomodulare nel processo di ottimizzazione GRPO, permettendo così di superare la limitazione delle ricompense scalari standard e ottenere prestazioni superiori con dati di addestramento ridotti.