How Far Can Unsupervised RLVR Scale LLM Training?
Questo lavoro analizza l'apprendimento per rinforzo non supervisionato con ricompense verificabili (URLVR), rivelando che i metodi intrinseci tendono al collasso del modello a causa di un allineamento errato tra confidenza e correttezza, mentre le ricompense esterne basate sull'asimmetria computazionale offrono una potenziale via di fuga per superare questi limiti di scalabilità.