SPEED-RL: Faster Training of Reasoning Models via Online Curriculum Learning
O artigo apresenta o SPEED-RL, um método de aprendizado por reforço online que acelera o treinamento de modelos de raciocínio em até 6 vezes ao selecionar dinamicamente exemplos de dificuldade intermediária para maximizar a eficiência do aprendizado sem comprometer a precisão.