ThaiSafetyBench: Assessing Language Model Safety in Thai Cultural Contexts
この論文は、英語中心の安全性評価の限界を克服し、タイの文化的文脈に特化した攻撃を含む1,954の悪意あるプロンプトで構成されるオープンソースベンチマーク「ThaiSafetyBench」を提案し、24の言語モデルを評価して文化的文脈に特化した攻撃の脆弱性を明らかにするとともに、再現性とコスト効率を向上させるための分類器とリーダーボードを公開したものです。