How Far Can Unsupervised RLVR Scale LLM Training?
Este trabajo analiza exhaustivamente el aprendizaje por refuerzo no supervisado con recompensas verificables (URLVR), demostrando que los métodos intrínsecos sufren un colapso inevitable cuando la confianza inicial del modelo no se alinea con la corrección, mientras que sugiere que las recompensas externas basadas en asimetrías computacionales podrían ofrecer una vía para superar estas limitaciones.