HomeSafe-Bench: Evaluating Vision-Language Models on Unsafe Action Detection for Embodied Agents in Household Scenarios
이 논문은 가정용 로봇의 안전성을 평가하기 위해 물리 시뮬레이션과 비디오 생성을 결합한 'HomeSafe-Bench' 벤치마크와 실시간 안전 감시를 위한 계층적 'HD-Guard' 아키텍처를 제안하며, 현재 비전 - 언어 모델의 안전 감지 한계를 분석하고 효율성과 정확성 간의 균형을 달성하는 방안을 제시합니다.