Why Is RLHF Alignment Shallow? A Gradient Analysis
Diese Arbeit beweist durch eine Gradientenanalyse, dass herkömmliche RLHF-Sicherheitsausrichtungen aufgrund des Verschwindens von Gradienten nach dem Zeitpunkt der Schadensentscheidung inhärent oberflächlich bleiben, und schlägt ein neues Ziel mit Wiederherstellungsstrafen vor, um eine durchgängige Signalgebung über den gesamten Text zu ermöglichen.