ThaiSafetyBench: Assessing Language Model Safety in Thai Cultural Contexts

이 논문은 영어 중심의 안전 평가에서 소외된 태국어와 태국 문화를 반영한 위험을 평가하기 위해 태국어 악성 프롬프트 1,954 개로 구성된 오픈소스 벤치마크 'ThaiSafetyBench'와 관련 분류기, 리더보드를 소개하고, 이를 통해 오픈소스 모델의 안전성 취약점과 문화적 맥락 공격의 높은 성공률을 규명했습니다.

Trapoom Ukarapol, Nut Chukamphaeng, Kunat Pipatanakul, Pakhapoom Sarapat

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🌏 1. 문제: "영어는 잘하지만, 태국 문화는 몰라요"

지금까지 AI 의 안전성을 검사할 때는 주로 영어로 된 질문을 많이 썼습니다. 마치 "영어로만 된 요리책"만 가지고 전 세계 요리를 평가하는 것과 비슷하죠.
하지만 태국 같은 나라에서는 영어로 된 질문보다 태국 특유의 문화, 속담, 사회적 관습을 건드리는 질문을 했을 때 AI 가 더 쉽게 넘어가거나 위험한 대답을 할 수 있습니다.

비유: 마치 "영어로 된 교통법규"만 외운 운전자가, 태국에서 흔히 쓰이는 복잡한 골목길 (문화적 뉘앙스) 을 운전하다가 사고를 낼 수 있는 것과 같습니다.

이 연구팀은 **"태국 문화에 특화된 안전성 검사표 (ThaiSafetyBench)"**를 만들어 1,954 개의 '악의적인 질문 (공격)'을 준비했습니다. 이 질문들은 단순한 나쁜 말뿐만 아니라, 태국의 왕실, 종교, 지역 갈등, 사회적 예절 등 태국인만이 이해할 수 있는 민감한 주제들을 포함합니다.

🧪 2. 실험: 24 명의 AI 학생에게 시험지 내기

연구팀은 이 검사표를 이용해 24 개의 다양한 AI 모델 (구글, 오픈AI 같은 거대 기업 모델부터 오픈소스 모델까지) 에게 시험을 보게 했습니다.

  • 시험 감독관: 두 명의 초고성능 AI (GPT-4.1, Gemini-2.5-Pro) 가 "이 답변이 위험한가?"를 판정했습니다.
  • 결과:
    • 상용 AI (비밀 유지 모델): 대부분 시험을 잘 봤습니다. 위험한 질문을 거절하는 능력이 뛰어났습니다.
    • 오픈소스 AI (누구나 쓸 수 있는 모델): 일부는 잘했지만, 전반적으로 문화적 맥락이 포함된 질문에는 훨씬 취약했습니다.
    • 가장 큰 발견: 일반적인 나쁜 질문보다 **"태국 문화 특유의 질문"**에 AI 가 더 쉽게 넘어갔습니다. 즉, AI 가 태국 문화를 제대로 이해하지 못해 안전 장치가 작동하지 않는다는 뜻입니다.

비유: 영어로 된 "불법 주정차" 경고는 잘 지키지만, 태국 현지에서 "어르신께 인사할 때 실수하는 것" 같은 복잡한 사회적 규칙은 AI 가 지키지 못해 사고가 나는 상황입니다.

🛠️ 3. 해결책: "가벼운 안전 검사관 (ThaiSafetyClassifier)"

매번 비싼 AI 감독관 (GPT-4 등) 을 불러서 검사하는 것은 비용이 많이 듭니다. 그래서 연구팀은 DeBERTa라는 경량 모델을 훈련시켜, **태국어 답변이 안전한지 위험한지 84.4% 의 정확도로 판단하는 '자동 검사관'**을 만들었습니다.
이 모델은 오픈소스로 공개되어, 누구나 저렴하게 AI 의 안전성을 다시 한번 점검할 수 있게 되었습니다.

비유: 매번 고가의 전문 검사소를 이용할 필요 없이, 집에서 쓸 수 있는 **'안전 진단 키트'**를 무료로 배포한 것과 같습니다.

🏆 4. 리더보드: "태국 AI 안전성 순위표"

연구팀은 이 검사 결과를 바탕으로 온라인 리더보드를 만들었습니다. 여기서 전 세계 개발자들이 만든 태국어 AI 모델들이 안전성 점수에 따라 랭킹을 매길 수 있습니다. 이를 통해 "누가 가장 안전한 태국어 AI 를 만들었는지" 투명하게 비교하고, 더 안전한 AI 를 개발하도록 독려합니다.

💡 요약: 이 연구가 중요한 이유

  1. 문화적 안전의 중요성: AI 가 안전하려면 단순히 '나쁜 말'을 막는 것뿐만 아니라, 그 나라의 문화와 정서를 이해해야 합니다.
  2. 오픈소스의 취약점: 누구나 쓸 수 있는 오픈소스 AI 는 상용 AI 에 비해 태국 문화적 공격에 더 취약할 수 있음을 경고했습니다.
  3. 공유와 협력: 태국어 AI 를 더 안전하게 만들기 위해 데이터, 검사 도구, 순위표를 모두 공개하여 커뮤니티가 함께 발전하도록 돕습니다.

결론적으로, 이 논문은 **"AI 가 태국이라는 땅에서 안전하게 살아가려면, 태국 문화라는 '언어'와 '정서'를 제대로 배워야 한다"**는 메시지를 전하고 있습니다.