Why Is RLHF Alignment Shallow? A Gradient Analysis
Este artigo demonstra teoricamente que o alinhamento baseado em RLHF é superficial porque os gradientes de treinamento desaparecem após o ponto em que o dano é determinado, e propõe uma nova função objetivo baseada em penalidades de recuperação para garantir sinais de gradiente em todas as posições da sequência.