Real-Time Aligned Reward Model beyond Semantics
Este trabajo presenta R2M, un marco de aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) innovador que supera las limitaciones de la sobreoptimización de recompensas al alinear el modelo de recompensa con los cambios de distribución en tiempo real de la política mediante el uso de sus estados ocultos evolutivos, en lugar de depender únicamente de representaciones semánticas superficiales.