Why Is RLHF Alignment Shallow? A Gradient Analysis
Dit paper bewijst dat gradienten op basis van RLHF alignment inherent oppervlakkig zijn omdat ze verdwijnen zodra de schadelijkheid van een output is vastgesteld, en stelt een nieuw doel voor dat herstelstraffen gebruikt om een gradientensignaal over de volledige sequentie te behouden.