Learn Hard Problems During RL with Reference Guided Fine-tuning
Il paper introduce ReGFT, un metodo che utilizza soluzioni di riferimento parziali per generare traiettorie di ragionamento all'interno dello spazio del modello, superando la sparsità dei reward e migliorando significativamente le prestazioni del Reinforcement Learning nel ragionamento matematico.