NFT: Bridging Supervised Learning and Reinforcement Learning in Math Reasoning
Die Arbeit stellt Negative-aware Fine-Tuning (NFT) vor, einen überwachten Lernansatz, der durch die Modellierung selbstgenerierter negativer Antworten die Lücke zwischen überwachtem Lernen und Bestärkendem Lernen schließt und mathematische Reasoning-Fähigkeiten von LLMs ohne externe Lehrer signifikant verbessert.