Stronger Enforcement of Instruction Hierarchy via Augmented Intermediate Representations
Este artículo presenta un nuevo enfoque que mejora la seguridad de los modelos de lenguaje frente a inyecciones de instrucciones al inyectar señales de jerarquía de instrucciones en las representaciones intermedias de la red mediante embebidos entrenables, logrando una reducción significativa en la tasa de éxito de los ataques sin comprometer la utilidad del modelo.