Regularized Online RLHF with Generalized Bilinear Preferences
Este artigo propõe um método de RLHF online regularizado com preferências generalizadas bilineares que, ao utilizar matrizes de baixo posto e antissimétricas, garante limites de arrependimento estatisticamente eficientes e livres de exponenciais em dimensões altas, superando as restrições de trabalhos anteriores limitados à regularização por KL reverso.