Good Reasoning Makes Good Demonstrations: Implicit Reasoning Quality Supervision via In-Context Reinforcement Learning
El artículo presenta In-Context RLVR, un método que utiliza el "Ganancia de Evidencia" derivada del aprendizaje en contexto para reponderar implícitamente las recompensas y priorizar trazas de razonamiento de alta calidad durante el entrenamiento, mejorando así tanto la precisión como la calidad del razonamiento en modelos de lenguaje.