ThaiSafetyBench: Assessing Language Model Safety in Thai Cultural Contexts
Questo lavoro introduce ThaiSafetyBench, un benchmark open-source di 1.954 prompt dannosi in lingua thai che evidenzia come i modelli linguistici siano più vulnerabili agli attacchi radicati nelle specificità culturali thailandesi rispetto a quelli generici, offrendo inoltre un classificatore addestrato e una leaderboard per valutare e migliorare la sicurezza dei modelli in questo contesto.