ThaiSafetyBench: Assessing Language Model Safety in Thai Cultural Contexts
이 논문은 영어 중심의 안전 평가에서 소외된 태국어와 태국 문화를 반영한 위험을 평가하기 위해 태국어 악성 프롬프트 1,954 개로 구성된 오픈소스 벤치마크 'ThaiSafetyBench'와 관련 분류기, 리더보드를 소개하고, 이를 통해 오픈소스 모델의 안전성 취약점과 문화적 맥락 공격의 높은 성공률을 규명했습니다.