Good Reasoning Makes Good Demonstrations: Implicit Reasoning Quality Supervision via In-Context Reinforcement Learning
O artigo propõe o "In-Context RLVR", um método que utiliza a capacidade de aprendizado em contexto do próprio modelo para medir a utilidade das demonstrações e reponderar implicitamente as recompensas, priorizando traços de raciocínio de alta qualidade e melhorando assim tanto a precisão quanto a qualidade do raciocínio em benchmarks matemáticos.