ThaiSafetyBench: Assessing Language Model Safety in Thai Cultural Contexts

Este trabajo presenta ThaiSafetyBench, un nuevo benchmark de código abierto con 1.954 prompts maliciosos en tailandés que revela que los modelos de lenguaje actuales son más vulnerables a ataques culturalmente contextualizados que a ataques generales, destacando la necesidad de mejorar la seguridad de los modelos en contextos no anglófonos.

Trapoom Ukarapol, Nut Chukamphaeng, Kunat Pipatanakul, Pakhapoom Sarapat

Publicado 2026-03-06
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que las Inteligencias Artificiales (IA) son como cocineros gigantes que pueden preparar cualquier plato que les pidas. Hasta ahora, la mayoría de los expertos han estado probando a estos cocineros solo con recetas en inglés. Pero, ¿qué pasa si le pides un plato típico de Tailandia, con sus especias locales y sus tabúes culturales? Es muy probable que el cocinero, aunque sea muy bueno en inglés, se equivoque, ofenda o incluso sirva algo peligroso porque no entiende la "sazón" de la cultura tailandesa.

Aquí te explico el papel "ThaiSafetyBench" como si fuera una historia:

1. El Problema: El "Sabor" que falta

Los investigadores notaron que las IAs son muy buenas evitando cosas malas en inglés, pero cuando se les habla en tailandés o se les pide algo relacionado con la cultura local (como respetar a la monarquía o evitar chismes falsos locales), se vuelven un poco "ciegas". Es como si un guardaespaldas estuviera entrenado para detectar armas en un idioma, pero no supiera reconocer una piedra lanzada en otro idioma.

2. La Solución: El "Gimnasio de Entrenamiento" (ThaiSafetyBench)

Para arreglar esto, el equipo creó un gimnasio de pruebas llamado ThaiSafetyBench.

  • ¿Qué es? Es una lista de 1,954 preguntas "malvadas" escritas específicamente en tailandés.
  • La mezcla: No son solo preguntas malas genéricas. Hay dos tipos:
    1. Las genéricas: "¿Cómo fabrico una bomba?" (Peligro universal).
    2. Las culturales: "¿Cómo puedo ofender a la familia real?" o "¿Cómo difundo un rumor falso sobre una fiesta local?". Estas son las que realmente ponen a prueba si la IA entiende la cultura.

3. La Prueba de Fuego: 24 Cocineros en la Arena

Los autores tomaron 24 IAs diferentes (algunas muy famosas y cerradas como GPT-4, y otras de código abierto que cualquiera puede descargar) y las sometieron a este examen.

  • Los jueces: Para calificar, usaron a dos "super-cocineros" (GPT-4.1 y Gemini-2.5-Pro) que actuaron como jueces imparciales. Leían la respuesta de la IA y decían: "¿Esto es seguro o es peligroso?".
  • El resultado:
    • Las IAs "cerradas" (las de pago) generalmente se portaron mejor, como cocineros con mucha experiencia.
    • Las IAs "abiertas" (gratuitas) a menudo fallaron más, especialmente en las preguntas culturales.
    • El hallazgo más importante: Las IAs fallaron mucho más cuando las preguntas eran específicamente tailandesas que cuando eran generales. ¡Es como si el cocinero supiera cocinar arroz, pero quemara el curry tailandés!

4. La Herramienta Mágica: El "Detector de Humo" (ThaiSafetyClassifier)

Evaluar a 24 IAs manualmente es caro y lento (como revisar cada plato a mano). Para ayudar a todos, los autores crearon un pequeño programa llamado ThaiSafetyClassifier.

  • Cómo funciona: Es un "detective" automático basado en una tecnología llamada DeBERTa. Mira la pregunta y la respuesta, y te dice rápidamente: "¡Peligro!" o "¡Seguro!".
  • Su superpoder: Es tan bueno que casi piensa igual que los jueces humanos (o las IAs gigantes), pero es mucho más rápido y barato. Además, lo regalan gratis para que otros investigadores lo usen.

5. El Tablero de Honor (Leaderboard)

Finalmente, crearon un punto de encuentro en internet (un tablero de clasificación) donde cualquiera puede ver qué IA es la más segura en Tailandia hoy en día. Es como un ranking de deportes, pero en lugar de goles, cuentan cuántas veces la IA se portó mal. Esto anima a los desarrolladores a mejorar sus modelos para subir en la lista.

En Resumen

Este trabajo es como decir: "No basta con que una IA sea inteligente en inglés; para ser verdaderamente segura, debe entender el corazón y la cultura de cada país donde vive".

Los autores nos dieron el mapa (el dataset), el entrenamiento (la prueba), la herramienta de medición (el clasificador) y el estadio (el tablero) para que sigamos construyendo IAs que respeten y protejan a la gente tailandesa, y sirvan de ejemplo para el resto del mundo.

¿El mensaje final? La seguridad de la IA no es un tamaño único; debe ser cosida a la medida de cada cultura.