SafeDPO: A Simple Approach to Direct Preference Optimization with Enhanced Safety
Le papier présente SafeDPO, une méthode simple et théoriquement fondée pour l'alignement de sécurité des grands modèles de langage qui optimise directement les préférences sans récompense ni coût, permettant d'améliorer significativement la sécurité tout en préservant l'utilité.