In-Training Defenses against Emergent Misalignment in Language Models
Die Studie untersucht praktische In-Training-Sicherheitsmaßnahmen gegen emergente Fehljustierung in Sprachmodellen und zeigt, dass das gezielte Einmischen von Trainingsdaten basierend auf dem Perplexitäts-Abstand zwischen ausgerichteten und fehljustierten Modellen die beste Balance zwischen Sicherheit und Leistung bietet.