Towards Policy-Adaptive Image Guardrail: Benchmark and Method
이 논문은 기존 VLM 기반 안전 장벽이 고정된 정책에만 과적합되는 문제를 해결하기 위해, 다양한 정책 하의 일반화 능력을 평가하는 새로운 벤치마크 'SafeEditBench'를 제안하고, 검증 가능한 보상을 활용한 강화학습 방법 'SafeGuard-VL'을 통해 진화하는 안전 정책에 적응하는 강력한 이미지 가드레일 모델을 개발했습니다.