Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions
El artículo presenta ReLIFT, un nuevo enfoque de entrenamiento que alterna el aprendizaje por refuerzo con el ajuste fino en línea para superar las limitaciones del primero al incorporar nuevos conocimientos y patrones de razonamiento, logrando así mejoras significativas en benchmarks de alto nivel con una fracción mínima de datos de demostración.