How Far Can Unsupervised RLVR Scale LLM Training?
Dit onderzoek analyseert de schaalbaarheid van ongesuperviseerd versterkend leren met verifieerbare beloningen (URLVR) en concludeert dat inheemse beloningsmethoden, hoewel nuttig voor testtijd-training, fundamenteel beperkt zijn door een 'vertrouwen-correctheid'-plafond dat leidt tot modelinstorting, terwijl externe beloningsmechanismen een veelbelovend alternatief bieden om deze grenzen te doorbreken.
Bingxiang He, Yuxin Zuo, Zeyuan Liu, Shangziqi Zhao, Zixuan Fu, Junlin Yang, Cheng Qian, Kaiyan Zhang, Yuchen Fan, Ganqu Cui, Xiusi Chen, Youbang Sun, Xingtai Lv, Xuekai Zhu, Li Sheng, Ran Li, Huan-ang Gao, Yuchen Zhang, Bowen Zhou, Zhiyuan Liu, Ning Ding2026-03-10🤖 cs.LG