Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models
Die Arbeit stellt das Framework „On-Policy Self-Distillation" (OPSD) vor, bei dem ein einziges großes Sprachmodell durch den Vergleich seiner eigenen Antworten mit privilegierten Lösungswegen als sowohl Lehrer als auch Schüler fungiert, um die mathematische Schlussfolgerungsfähigkeit effizienter zu verbessern als herkömmliche Methoden.