ThaiSafetyBench: Assessing Language Model Safety in Thai Cultural Contexts

Este trabalho apresenta o ThaiSafetyBench, um benchmark de código aberto com 1.954 prompts maliciosos em tailandês que revela vulnerabilidades específicas em modelos de linguagem ao avaliar riscos culturalmente contextualizados, demonstrando que ataques baseados em nuances da cultura tailandesa têm maior taxa de sucesso do que ataques gerais e que modelos fechados superam os de código aberto em segurança.

Trapoom Ukarapol, Nut Chukamphaeng, Kunat Pipatanakul, Pakhapoom Sarapat

Publicado 2026-03-06
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que os Grandes Modelos de Linguagem (LLMs) são como cozinheiros robóticos superinteligentes que acabaram de chegar na sua cidade. Eles são incríveis: podem escrever receitas, contar histórias e ajudar em tarefas complexas. Mas, como qualquer cozinheiro novo, eles precisam aprender as regras da casa para não servir pratos envenenados ou ofensivos.

Até agora, a maioria dos testes para ver se esses robôs são "seguros" foi feita apenas em inglês, como se estivéssemos testando se eles sabem cozinhar apenas pratos americanos. O problema? Se você pedir um prato típico da Tailândia, o robô pode não entender as nuances culturais, os tabus locais ou as piadas internas, e acabar servindo algo que ofende a família inteira.

É aqui que entra o ThaiSafetyBench, o novo "manual de testes" criado pelos autores deste artigo. Vamos descomplicar o que eles fizeram:

1. O Grande Desafio: O "Sabor" Cultural

Os pesquisadores perceberam que os robôs são muito mais seguros quando falam inglês, mas falham feio quando tentam entender a cultura tailandesa.

  • A Analogia: Imagine que você pede ao robô para não falar sobre o Rei ou a Monarquia. Em inglês, ele sabe a regra. Mas em tailandês, com gírias locais e referências históricas específicas, ele pode não entender que aquilo é um "botão vermelho" e acabar dizendo algo proibido.
  • A Descoberta: Eles criaram um banco de dados com quase 2.000 perguntas "perigosas" (maliciosas) escritas em tailandês. Algumas são perigosas em qualquer lugar (como pedir para criar um vírus), mas muitas são perigosas apenas no contexto da Tailândia (como ofender tradições locais ou falar mal da realeza).

2. A Prova de Fogo: 24 Robôs na Cozinha

Eles colocaram 24 desses "cozinheiros robóticos" (modelos de IA) à prova usando esse novo banco de testes.

  • O Veredito: Os robôs "fechados" (como o GPT-4 e o Gemini, que são como restaurantes de luxo com cozinheiros treinados por especialistas) geralmente se saíram muito bem. Eles sabem dizer "não" para as perguntas erradas.
  • O Problema: Os robôs "abertos" (que qualquer pessoa pode baixar e usar, como receitas públicas) foram muito mais fáceis de enganar. Eles aceitaram mais pedidos perigosos, especialmente quando o pedido usava gírias ou contextos culturais tailandeses.
  • A Lição: Quanto mais "tailandês" e culturalmente específico era o ataque, maior a chance do robô falhar. É como se o robô soubesse a regra geral, mas não soubesse a regra da "vovó" local.

3. A Ferramenta Mágica: O "Detector de Veneno"

Testar 24 robôs manualmente, lendo cada resposta, seria caro e demorado (como provar cada prato de um banquete com 10.000 pratos).

  • A Solução: Eles criaram um pequeno "robô fiscal" chamado ThaiSafetyClassifier. É um modelo leve e rápido que lê a pergunta e a resposta do robô e diz: "Isso é seguro" ou "Isso é veneno".
  • A Precisão: Esse fiscal é tão bom que concorda com os juízes humanos (ou com os robôs mais caros) em 84% dos casos. Isso permite que qualquer pessoa teste seus próprios robôs de graça e rapidamente.

4. O Placar Público (Leaderboard)

Eles criaram um ranking público (como uma tabela de classificação de futebol). Agora, qualquer desenvolvedor tailandês pode ver qual modelo de IA é o mais seguro e o mais confiável para usar em aplicativos locais. Isso incentiva a competição saudável: "Vamos fazer nosso robô ser mais seguro que o do vizinho".

Resumo da Ópera

Este trabalho é um alerta importante: Segurança em IA não é "tamanho único". O que funciona para proteger um robô em Nova York não protege um robô em Bangkok.

Os autores nos dizem que, se quisermos confiar nesses robôs em todo o mundo, precisamos criar testes que respeitem a cultura, a língua e as tradições locais. Caso contrário, vamos ter robôs que são "bons alunos" na sala de aula global, mas "maus alunos" na nossa própria casa.

O que eles deixaram de herança:

  1. O Banco de Dados (ThaiSafetyBench): A lista de perguntas perigosas em tailandês.
  2. O Fiscal (ThaiSafetyClassifier): A ferramenta gratuita para testar segurança.
  3. O Ranking: O lugar onde todos podem ver quem está jogando limpo.

É um passo gigante para garantir que a inteligência artificial seja segura para todos, não apenas para quem fala inglês.