LLaVAShield: Safeguarding Multimodal Multi-Turn Dialogues in Vision-Language Models
El artículo presenta LLaVAShield, un sistema de seguridad diseñado para auditar diálogos multimodales de múltiples turnos en modelos de visión-idioma, respaldado por el nuevo conjunto de datos MMDS y el marco de red teaming MMRT, que supera a las herramientas existentes al abordar riesgos contextuales y de intención oculta.