Stronger Enforcement of Instruction Hierarchy via Augmented Intermediate Representations
Diese Arbeit stellt eine neue Methode vor, die durch das Einfügen von instruction-hierarchie-Signalen in die Zwischendarstellungen von Sprachmodellen die Anfälligkeit für Prompt-Injection-Angriffe im Vergleich zu bestehenden Ansätzen um das 1,6- bis 9,2-fache reduziert, ohne die Nützlichkeit des Modells signifikant zu beeinträchtigen.