MathSmith: Towards Extremely Hard Mathematical Reasoning by Forging Synthetic Problems with a Reinforced Policy
Le papier présente MathSmith, un cadre novateur qui génère des problèmes mathématiques synthétiques de haute difficulté à partir de zéro en utilisant des stratégies de contraintes et l'apprentissage par renforcement pour améliorer les capacités de raisonnement des grands modèles de langage.