Dual-Metric Evaluation of Social Bias in Large Language Models: Evidence from an Underrepresented Nepali Cultural Context

Each language version is independently generated for its own context, not a direct translation.

Imagina que las Inteligencias Artificiales (IA) modernas, como los grandes modelos de lenguaje (LLM), son como bibliotecarios gigantes que han leído casi todo lo que existe en internet. Ahora, imagina que estos bibliotecarios te dan consejos sobre la vida, el trabajo o la cultura.

El problema es que, si la biblioteca está llena de libros escritos principalmente en inglés y sobre la cultura occidental, esos bibliotecarios podrían tener ideas equivocadas sobre cómo funcionan las cosas en lugares como Nepal.

Aquí te explico qué hizo este estudio, usando analogías sencillas:

1. El Problema: El "Bibliotecario" que no conoce tu barrio

Los autores (Ashish Pandey y Tek Raj Chhetri) notaron que la mayoría de las pruebas de sesgo (prejuicios) en la IA se hacen con ejemplos de Estados Unidos o Europa. Es como si probaras si un coche funciona bien conduciéndolo solo por las autopistas de California, y luego lo usaras en las montañas empinadas de los Himalayas sin saber si los frenos sirven.

Nepal es un lugar muy diverso, con 120 idiomas y muchas castas y grupos étnicos. Querían saber: ¿Si le preguntas a una IA sobre la cultura nepalí, repetirá estereotipos dañinos?

2. La Herramienta: Un "Espejo" Especial (El Dataset EquiText-Nepali)

Para probar esto, no usaron preguntas al azar. Crearon un espejo gigante llamado EquiText-Nepali.

Cómo funciona: Imagina que tienes 2,400 pares de frases. Una frase es el estereotipo (ej. "Las mujeres de tal grupo solo sirven para la cocina") y la otra es la realidad positiva (ej. "Las mujeres de tal grupo son ingenieras brillantes").
La prueba: Le mostraron estas frases a 7 de las IAs más famosas del mundo (como GPT-4, Claude, Gemini, Llama) y les preguntaron: "¿Estás de acuerdo con esta frase?".

3. El Método: Dos Tipos de "Mentiras" (DMBA)

Los investigadores descubrieron que las IAs pueden ser engañosas de dos formas diferentes, así que midieron ambas:

Tipo A: La Confesión (Sesgo Explícito)
Es cuando la IA dice directamente: "Sí, estoy de acuerdo con que los hombres son mejores líderes". Es como si alguien te dijera: "Sí, creo que los gatos son mejores que los perros".
- Resultado: Las IAs mostraron cierto acuerdo con los prejuicios (entre un 36% y 43% de las veces).
Tipo B: El Sueño (Sesgo Implícito)
Aquí es donde se pone interesante. En lugar de preguntar "¿Estás de acuerdo?", les dieron una frase cortada y les dijeron: "Termina la historia".
- Ejemplo: Si les decías "En Nepal, las personas de la casta Dalit...", ¿cómo terminaba la IA la frase?
- Resultado: ¡Aquí fue donde fallaron más! Aunque a veces decían "no estoy de acuerdo" en la pregunta directa, cuando tenían que escribir una historia, automáticamente completaban la frase con estereotipos negativos el 74-75% de las veces.
- Analogía: Es como un niño que te dice "No, no me gusta el chocolate" (confesión), pero cuando le das una galleta, la come inmediatamente sin pensarlo (acción).

4. Los Ajustes de Temperatura: ¿Más locura o más calma?

Las IAs tienen un ajuste llamado "temperatura".

Temperatura baja: La IA es muy lógica y predecible.
Temperatura alta: La IA es más creativa y "locuaz".

El estudio descubrió algo curioso:

Cuando la IA estaba muy "calma" (temperatura baja), era un poco más honesta en sus confesiones.
Pero cuando se volvía un poco más "creativa" (temperatura media), sus respuestas automáticas (el sueño) se volvían más estereotipadas.
Es como si, cuando una persona está muy relajada, sus prejuicios profundos salgan a la luz en sus historias, aunque diga lo contrario en una entrevista formal.

5. ¿Qué aprendimos? (Las conclusiones)

La IA es más prejuiciosa de lo que dice: A veces niegan tener prejuicios, pero sus historias revelan que los tienen profundamente arraigados.
No sirve probar solo una cosa: Si solo le preguntas a la IA "¿Estás de acuerdo?", no sabes la verdad. Tienes que ver qué escribe cuando se le deja libre.
Los prejuicios raciales y culturales son los peores: En el contexto de Nepal, los estereotipos sobre castas, religión y etnia eran los más difíciles de eliminar en las respuestas automáticas de la IA.
El mundo necesita más voces: Si las IAs se entrenan solo con datos occidentales, nunca entenderán bien a Nepal ni a otros lugares del "Sur Global". Necesitamos bibliotecas locales.

En resumen

Este estudio es como un chequeo médico para la inteligencia artificial en Nepal. Descubrió que, aunque las IAs dicen ser inteligentes y neutrales, en realidad llevan "gafas de sol" que les impiden ver la realidad nepalí con claridad, y a menudo repiten viejos prejuicios sociales sin darse cuenta.

La solución no es solo arreglar el código, sino enseñarles la cultura local con datos reales y diversos, para que dejen de repetir los mismos errores de siempre.

Each language version is independently generated for its own context, not a direct translation.

Aquí presento un resumen técnico detallado del artículo "Dual-Metric Evaluation of Social Bias in Large Language Models: Evidence from an Underrepresented Nepali Cultural Context" (Evaluación de Doble Métrica del Sesgo Social en Modelos de Lenguaje Grandes: Evidencia de un Contexto Cultural Nepalí Subrepresentado), traducido y adaptado al español.

1. Planteamiento del Problema

Los Modelos de Lenguaje Grandes (LLMs) han transformado los ecosistemas digitales globales, pero su capacidad para perpetuar sesgos sociales y culturales en contextos subrepresentados, como el de Nepal, permanece poco comprendida. La investigación actual sobre sesgos en IA se centra desproporcionadamente en contextos occidentales y en datos en inglés, ignorando las realidades del Sur Global.

En Nepal, una sociedad diversa con 120 idiomas y más de 125 grupos de castas y etnias, los LLMs entrenados principalmente en datos occidentales no capturan las normas culturales locales. Las evaluaciones existentes (como StereoSet o BOLD) carecen de la granularidad cultural necesaria para abordar problemas específicos como la discriminación por casta, las prácticas religiosas regionales y las dinámicas urbano-rurales. Además, los conjuntos de datos nepalíes actuales suelen basarse en contenido raspado de internet que no representa adecuadamente las estructuras sociales locales.

2. Metodología

El estudio propone un enfoque sistemático y cuantitativo para evaluar el sesgo en siete LLMs de última generación (GPT-4o-mini, Claude-3/4-Sonnet, Gemini-2.0-Flash/Lite, Llama-3-70B y Mistral-Nemo) bajo la lente de las normas socioculturales nepalíes.

A. Construcción del Dataset: EquiText-Nepali

Se desarrolló un nuevo conjunto de datos compatible con el estándar Croissant, denominado EquiText-Nepali, que contiene más de 2.400 pares de oraciones (estereotípicas y anti-estereotípicas).

Categorías de Sesgo: Género, Raza/Etnia y Sociocultural (incluyendo casta, religión y dinámicas interreligiosas).
Dominios: Roles profesionales, educativos y políticos.
Proceso: Se utilizó un protocolo riguroso de anotación por expertos bilingües (nepalí-inglés) para garantizar la validez cultural. Se validó la fiabilidad con un acuerdo de validación de etiquetas (LVA) del 92.1%.
Estructura: Los pares de oraciones están diseñados para contrastar prejuicios documentados con perspectivas progresivas e inclusivas.

B. Marco de Evaluación: Dual-Metric Bias Assessment (DMBA)

Se introduce un marco de evaluación de doble métrica que mide dos dimensiones complementarias del sesgo:

Sesgo de Acuerdo Explícito (Agreement Bias): Mide la propensión del modelo a "estar de acuerdo" con afirmaciones estereotípicas frente a las anti-estereotípicas cuando se le presenta una declaración directa. Se calcula la diferencia en los puntajes de acuerdo ( $\Delta_{agreement}$ ).
Sesgo de Completado Generativo (Completion Bias): Evalúa el comportamiento implícito del modelo al completar oraciones truncadas (los primeros 6 tokens de una frase estereotípica). Se utiliza la similitud coseno entre la generación del modelo y las referencias estereotípicas/anti-estereotípicas para determinar si el modelo tiende a generar contenido estereotípico.

C. Configuración Experimental

Modelos: 7 LLMs (propiedad y código abierto).
Parámetros de Decodificación: Se variaron la temperatura ( $T$ ) y el muestreo de núcleo ( $top\text{-}p$ ) para analizar la sensibilidad del sesgo. Se probaron configuraciones deterministas ( $T=0$ ), estocásticas ( $T=0.7$ ) y combinadas.
Análisis Estadístico: Se emplearon correlaciones de Pearson, tamaños del efecto y análisis de sensibilidad para comparar métricas explícitas e implícitas.

3. Contribuciones Clave

Dataset EquiText-Nepali: La primera evaluación de sesgo culturalmente fundamentada y estandarizada (Croissant) para el contexto nepalí, cubriendo dimensiones de género, raza y sociocultura.
Marco DMBA: Una metodología innovadora que evalúa simultáneamente el acuerdo explícito y el comportamiento generativo implícito, demostrando que estas dos métricas no son intercambiables.
Análisis de Sensibilidad: Un estudio exhaustivo sobre cómo los parámetros de decodificación (temperatura y top-p) afectan la expresión del sesgo en modelos de diferentes familias.
Evidencia del Sur Global: Llena una brecha crítica en la literatura sobre IA justa, proporcionando datos empíricos sobre un entorno de bajos recursos y subrepresentado.

4. Resultados Principales

A. Discrepancia entre Sesgo Explícito e Implícito

Tasas de Sesgo: Los modelos mostraron una tasa de sesgo de completado implícito significativamente más alta (0.740 – 0.755) en comparación con la tasa de acuerdo explícito (0.36 – 0.43).
Correlación Débil: El análisis de correlación reveló que el acuerdo explícito es un malo predictor del sesgo generativo implícito (correlación débil o negativa). Esto indica que un modelo puede rechazar verbalmente un estereotipo pero generar contenido estereotípico al completar una frase.

B. Impacto de los Parámetros de Decodificación

Temperatura:
- El sesgo explícito aumenta linealmente con la temperatura (de 0.36 a 0.43 al subir $T$ de 0.0 a 1.0).
- El sesgo implícito sigue una relación no lineal en forma de U: alcanza su punto máximo en una estocasticidad moderada ( $T=0.3$ ) y disminuye ligeramente en temperaturas más altas.
Top-p (Muestreo de Núcleo):
- Aumentar el $top\text{-}p$ amplifica el sesgo explícito (más acuerdo con estereotipos).
- El sesgo generativo implícito permanece estable independientemente del valor de $top\text{-}p$ , sugiriendo que el sesgo generativo es una propiedad intrínseca y robusta del modelo.

C. Análisis por Dominio

Raza y Sociocultural: Presentan las tasas más altas de sesgo implícito (completado), lo que sugiere que estos estereotipos están profundamente arraigados en los corpora de entrenamiento.
Género: Muestra niveles de acuerdo explícito elevados, similares a las categorías socioculturales, pero con una dinámica diferente en la generación.
Raza: Muestra la tasa de acuerdo explícito más baja, a pesar de tener un alto sesgo implícito.

5. Significado e Implicaciones

Este estudio demuestra que las métricas tradicionales de evaluación de sesgo (basadas solo en el acuerdo explícito) son insuficientes para capturar el riesgo real de los LLMs en contextos culturales diversos.

Necesidad de Estrategias de Mitigación Doble: Las técnicas de debiasing deben abordar tanto las respuestas directas como los comportamientos generativos, ya que son fenómenos desacoplados.
Importancia del Contexto Cultural: Los sesgos en Nepal (especialmente relacionados con casta y etnia) se manifiestan de manera diferente a los sesgos occidentales, requiriendo datasets y evaluaciones específicas.
Justicia en el Sur Global: El trabajo subraya la urgencia de desarrollar infraestructura de datos y evaluación para lenguas y culturas de bajos recursos para evitar que la IA amplifique las desigualdades existentes en estas regiones.

Limitaciones: El estudio utilizó prompts en inglés para la compatibilidad entre modelos, lo que podría subestimar matices culturales que solo aparecen en nepalí nativo. Además, el dataset es estático y refleja normas en un momento específico.

En conclusión, el artículo establece un nuevo estándar para la evaluación de la equidad en IA, proponiendo que la verdadera medición del sesgo requiere una perspectiva dual que combine la intención declarada del modelo con su comportamiento generativo real.