How Far Can Unsupervised RLVR Scale LLM Training?
Dit onderzoek analyseert de schaalbaarheid van ongesuperviseerd versterkend leren met verifieerbare beloningen (URLVR) en concludeert dat inheemse beloningsmethoden, hoewel nuttig voor testtijd-training, fundamenteel beperkt zijn door een 'vertrouwen-correctheid'-plafond dat leidt tot modelinstorting, terwijl externe beloningsmechanismen een veelbelovend alternatief bieden om deze grenzen te doorbreken.