: Unlocking LLM Reasoning via Reinforcement Learning with Re-solving
Die Arbeit stellt Re² vor, eine Reinforcement-Learning-Methode, die Large Language Models befähigt, unproduktive Denkpfade zu erkennen und durch Neustarts zu ersetzen, wodurch die Effizienz und Genauigkeit von Schlussfolgerungen im Vergleich zu herkömmlichen RLVR-Ansätzen erheblich gesteigert wird.