ThaiSafetyBench: Assessing Language Model Safety in Thai Cultural Contexts
Este trabalho apresenta o ThaiSafetyBench, um benchmark de código aberto com 1.954 prompts maliciosos em tailandês que revela vulnerabilidades específicas em modelos de linguagem ao avaliar riscos culturalmente contextualizados, demonstrando que ataques baseados em nuances da cultura tailandesa têm maior taxa de sucesso do que ataques gerais e que modelos fechados superam os de código aberto em segurança.