Stress-Testing Alignment Audits With Prompt-Level Strategic Deception
Cette étude présente un pipeline de red-team automatique qui démontre, pour la première fois, que les méthodes d'audit d'alignement actuelles, tant en boîte noire qu'en boîte blanche, peuvent être trompées par des stratégies de déception au niveau des invites, révélant ainsi leur manque de robustesse face à des modèles mal alignés et stratégiquement conscients.