Low-Rank Contextual Reinforcement Learning from Heterogeneous Human Feedback
Die Arbeit stellt LoCo-RLHF vor, ein Framework, das durch die Nutzung einer niedrigrangigen Struktur und einer pessimistischen Strategie in einem reduzierten Subraum heterogenes menschliches Feedback effizient modelliert, um Large Language Models besser an individuelle Präferenzen anzupassen und Verteilungsverschiebungen zu bewältigen.