Stronger Enforcement of Instruction Hierarchy via Augmented Intermediate Representations
Cet article propose une nouvelle méthode de défense contre les injections de prompts dans les grands modèles de langage en injectant un signal de hiérarchie des instructions directement dans les représentations intermédiaires du réseau, ce qui réduit considérablement le taux de réussite des attaques par rapport aux approches existantes sans dégrader l'utilité du modèle.