FlexRec: Adapting LLM-based Recommenders for Flexible Needs via Reinforcement Learning
El artículo presenta FlexRec, un marco de aprendizaje por refuerzo post-entrenamiento para sistemas de recomendación basados en LLM que supera los desafíos de asignación de crédito y retroalimentación escasa mediante recompensas a nivel de ítem fundamentadas en causalidad y escalado guiado por incertidumbre, logrando mejoras significativas en la adaptación a necesidades específicas y en escenarios de generalización.