Sysformer: Safeguarding Frozen Large Language Models with Adaptive System Prompts
Le papier présente Sysformer, une méthode novatrice qui améliore la sécurité des grands modèles de langage sans modifier leurs paramètres en apprenant à adapter dynamiquement les invites système en fonction des entrées utilisateur, réduisant ainsi considérablement les réponses nocives tout en augmentant la conformité aux demandes sûres.