ThaiSafetyBench: Assessing Language Model Safety in Thai Cultural Contexts
Este trabajo presenta ThaiSafetyBench, un nuevo benchmark de código abierto con 1.954 prompts maliciosos en tailandés que revela que los modelos de lenguaje actuales son más vulnerables a ataques culturalmente contextualizados que a ataques generales, destacando la necesidad de mejorar la seguridad de los modelos en contextos no anglófonos.