Towards Policy-Adaptive Image Guardrail: Benchmark and Method
Diese Arbeit stellt mit SafeEditBench ein neues Benchmark-Tool zur Bewertung der politikübergreifenden Generalisierung von Bild-Sicherheitsmodellen vor und schlägt die RLVR-basierte Methode SafeGuard-VL vor, um Vision-Language-Modelle robust an sich wandelnde Sicherheitsrichtlinien anzupassen.