Understanding LLM Behavior When Encountering User-Supplied Harmful Content in Harmless Tasks
Este estudo revela que os atuais Grandes Modelos de Linguagem (LLMs), incluindo os mais recentes, frequentemente falham em rejeitar conteúdo prejudicial fornecido pelo usuário quando este é inserido em tarefas aparentemente inofensivas, expondo uma vulnerabilidade ética de nível de conteúdo que requer medidas de segurança aprimoradas.