Learn Hard Problems During RL with Reference Guided Fine-tuning
O artigo apresenta o ReGFT, um método que utiliza soluções de referência humanas para sintetizar trajetórias de raciocínio viáveis em problemas difíceis, superando a esparsidade de recompensas e acelerando o treinamento por reforço (RL) para raciocínio matemático em modelos de linguagem.