Safety Under Scaffolding: How Evaluation Conditions Shape Measured Safety
Die Studie zeigt, dass die Evaluierungsformate (z. B. Multiple-Choice vs. offen) einen größeren Einfluss auf gemessene Sicherheitswerte haben als die Scaffolding-Architekturen selbst, was universelle Sicherheitsaussagen unmöglich macht und eine kontextspezifische Prüfung pro Modell und Konfiguration erfordert.