How Far Can Unsupervised RLVR Scale LLM Training?
Diese Arbeit analysiert umfassend das unüberwachte Reinforcement Learning mit verifizierbaren Belohnungen (URLVR), zeigt auf, dass intrinsische Belohnungsmethoden aufgrund einer theoretisch bedingten Konvergenz zur Verschärfung der anfänglichen Modellverteilung zwangsläufig in einem „Rise-and-Fall"-Muster mit anschließendem Zusammenbruch enden, und schlägt externe Belohnungsmechanismen als vielversprechende Alternative zur Überwindung dieser Skalierungsgrenzen vor.