SafeDPO: A Simple Approach to Direct Preference Optimization with Enhanced Safety
Das Paper stellt SafeDPO vor, eine einfache und theoretisch fundierte Methode zur direkten Optimierung von Präferenzen, die die Sicherheit von Large Language Models ohne komplexe Zusatzmodelle oder Online-Sampling verbessert und dabei die Hilfsbereitschaft erhält.