Scaling Reasoning Efficiently via Relaxed On-Policy Distillation
Die Arbeit stellt REOPOLD vor, ein Framework, das durch die Interpretation von On-Policy-Distillation als Policy-Optimierung und die Einführung relaxierter Belohnungsmechanismen die Stabilität und Effizienz bei der Übertragung von Reasoning-Fähigkeiten auf kleinere Modelle signifikant verbessert.