Stronger Enforcement of Instruction Hierarchy via Augmented Intermediate Representations
Questo paper propone un nuovo metodo di difesa contro gli attacchi di iniezione di prompt nei modelli linguistici su larga scala, che inietta segnali gerarchici di istruzione direttamente nelle rappresentazioni intermedie della rete tramite embedding addestrabili, ottenendo una riduzione significativa del tasso di successo degli attacchi rispetto alle tecniche esistenti senza compromettere l'utilità del modello.