Stronger Enforcement of Instruction Hierarchy via Augmented Intermediate Representations
Dit artikel introduceert een nieuwe methode die prompt-injectie-aanvallen op grote taalmodellen effectiever bestrijdt door het bevoorrechte instructieniveau niet alleen aan de invoer, maar ook in de tussenliggende neurale representaties te coderen, wat leidt tot een aanzienlijke vermindering van de aanvalssuccesratio's zonder de nuttigheid van het model te schaden.