How Far Can Unsupervised RLVR Scale LLM Training?
Este artigo analisa o Aprendizado por Reforço Não Supervisionado com Recompensas Verificáveis (URLVR), demonstrando que os métodos intrínsecos enfrentam limites de escala devido ao alinhamento entre confiança e correção, enquanto propõe métricas para identificar esses limites e explora recompensas externas como uma alternativa promissora para superar essas barreiras.