Stronger Enforcement of Instruction Hierarchy via Augmented Intermediate Representations
Este artigo propõe uma nova abordagem de segurança para modelos de linguagem que injeta sinais de hierarquia de instruções nas representações intermediárias da rede, resultando em uma redução de 1,6 a 9,2 vezes na taxa de sucesso de ataques de injeção de prompt em comparação com métodos existentes, sem comprometer significativamente a utilidade do modelo.