ThaiSafetyBench: Assessing Language Model Safety in Thai Cultural Contexts
Dit paper introduceert ThaiSafetyBench, een open-source benchmark met 1.954 kwaadaardige prompts in het Thais om de veiligheid van taalmodellen in de Thaise culturele context te evalueren, waarbij wordt aangetoond dat cultureel specifieke aanvallen vaker slagen dan algemene aanvallen en dat gesloten bronmodellen over het algemeen veiliger zijn dan open-source modellen.