A Simple "Motivation" Can Enhance Reinforcement Finetuning of Large Reasoning Models
Dit paper introduceert MeRF, een methode die de prestaties van versterkingslering bij grote redeneringsmodellen verbetert door de beloningsfunctie expliciet in de prompt te integreren als 'motivatie', waardoor het model de optimalisatiedoelstellingen beter begrijpt en sneller leert.