Low-Rank Contextual Reinforcement Learning from Heterogeneous Human Feedback
Ce papier propose le cadre LoCo-RLHF, qui intègre des informations contextuelles via une structure de faible rang et une politique pessimiste dans un sous-espace réduit pour surmonter l'hétérogénéité des retours humains et les décalages de distribution dans l'apprentissage par renforcement à partir de feedback humain.