FlexRec: Adapting LLM-based Recommenders for Flexible Needs via Reinforcement Learning
O FlexRec é um framework de aprendizado por reforço pós-treinamento para sistemas de recomendação baseados em LLMs que supera desafios de atribuição de crédito e feedback esparsos através de recompensas baseadas em contrafactuais e escalonamento guiado por incerteza, alcançando melhorias significativas na adaptação a necessidades específicas e na generalização.