When Do Language Models Endorse Limitations on Human Rights Principles?

Este estudio evalúa cómo once grandes modelos de lenguaje navegan las compensaciones relacionadas con la Declaración Universal de los Derechos Humanos en múltiples idiomas, revelando sesgos sistemáticos que incluyen una mayor disposición a limitar derechos económicos y sociales, variaciones lingüísticas significativas y una alta susceptibilidad a la manipulación mediante instrucciones.

Keenan Samway, Nicole Miu Takagi, Rada Mihalcea, Bernhard Schölkopf, Ilias Chalkidis, Daniel Hershcovich, Zhijing Jin

Publicado 2026-03-05
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que los Modelos de Lenguaje (LLMs), como los que usan Chatbots o asistentes de IA, son como nuevos "jueces digitales" muy inteligentes. Estos jueces están aprendiendo a tomar decisiones sobre temas muy serios, como la libertad de expresión, la privacidad o el derecho a la educación.

El problema es: ¿Son estos jueces digitales justos y consistentes, o cambian de opinión dependiendo de cómo les hables o en qué idioma?

Este estudio es como una gran prueba de estrés para ver cómo reaccionan estos "jueces" cuando tienen que elegir entre dos derechos humanos que chocan (por ejemplo: "¿Es aceptable restringir la libertad de expresión para proteger la salud pública?").

Aquí te explico los hallazgos principales con analogías sencillas:

1. El "Efecto Camaleón" del Idioma 🦎

Imagina que le pides a un juez que decida si es justo poner un candado en una puerta.

  • Si le preguntas en inglés, el juez dice: "¡No! Eso es una violación de derechos".
  • Si le preguntas en chino o hindi (usando el mismo escenario), el mismo juez dice: "Bueno, quizás sea necesario por el bien común".

La analogía: Es como si tuvieras un termómetro que marca "frío" si lo miras en inglés, pero "caliente" si lo miras en chino. Los modelos no son consistentes; su "brújula moral" gira según el idioma. En idiomas como el chino o el hindi, los modelos tienden a aceptar más fácilmente que el gobierno limite los derechos de las personas en comparación con el inglés o el rumano.

2. La "Hierarquía de Derechos" 🏛️ vs. 🏥

Los modelos tienen una preferencia extraña, como un niño que prefiere los juguetes de construcción sobre los de cocina.

  • Derechos Políticos y Civiles (La "Libertad"): Cosas como hablar libremente, no ser torturado o tener un juicio justo. Los modelos protegen mucho estos derechos.
  • Derechos Económicos, Sociales y Culturales (El "Bienestar"): Cosas como el derecho a la vivienda, la educación o un nivel de vida digno. Los modelos son más flexibles y aceptan más fácilmente que el gobierno limite estos derechos si dice que es por "estabilidad económica".

La analogía: Es como si el juez digital dijera: "Está bien que te quiten tu casa o tu escuela (derecho social) si eso ayuda a la economía, pero ¡NUNCA! te quites tu derecho a gritar lo que piensas (derecho político)".

3. El "Botón de Pánico" de las Emergencias 🚨

Cuando los modelos leen que hay una catástrofe natural (como un huracán), se vuelven muy permisivos.

  • Si hay un huracán, aceptan casi todo: "¡Sí, pongan cámaras en los refugios y rastreen a todos! ¡Es por su seguridad!".
  • Si es una protesta social o un día normal, son más reacios a aceptar esas restricciones.

La analogía: Es como un guardia de seguridad que, ante una tormenta, deja entrar a cualquiera y olvida las reglas de seguridad, pero si es un día tranquilo, revisa cada tarjeta de identificación minuciosamente.

4. El "Juguete de Moverse" (Influencia del Prompt) 🎭

Este es quizás el hallazgo más inquietante. Los modelos son como actores que cambian de personaje según el guion que les des.

  • Si le dices: "Actúa como un defensor de la libertad individual", el modelo rechaza las restricciones.
  • Si le dices: "Actúa como un defensor de la autoridad del gobierno", el mismo modelo aprueba las restricciones.

La analogía: Es como un amigo que dice "¡No me gusta el chocolate!" pero si le preguntas "¿Qué harías si el chocolate fuera gratis y obligatorio?", cambia de opinión al instante. Esto significa que no podemos confiar en que sus opiniones sean reales; son muy fáciles de manipular con las palabras correctas.

5. El "Disco Duro" vs. La "Conversación" 💬

Hubo una diferencia curiosa entre cómo respondían los modelos:

  • Si les pedías una nota del 1 al 5 (como en un examen), parecían muy consistentes.
  • Si les pedías que escribieran un párrafo explicando por qué, sus respuestas cambiaban drásticamente y a menudo eran menos justas que las de los humanos.

La analogía: Es como si en un examen de opción múltiple respondieran correctamente, pero cuando les das un micrófono abierto para hablar, empiezan a divagar y a decir cosas que no dirían en el examen.

¿Por qué importa todo esto? 🌍

Imagina que en el futuro, estos "jueces digitales" ayuden a los gobiernos a decidir:

  • Quién recibe asilo.
  • Qué contenido se censura en internet.
  • Cómo se gestionan las crisis de salud.

Si el juez digital es injusto en ciertos idiomas, cambia de opinión según el clima, o se deja manipular por la forma en que le preguntas, entonces no podemos confiar ciegamente en ellos para tomar decisiones que afectan la vida de las personas.

En resumen: La IA no es un robot perfecto y neutral. Es como un espejo que a veces refleja la realidad, pero a veces distorsiona la imagen dependiendo del idioma, la urgencia del momento y de quién le esté hablando. Necesitamos aprender a usarlos con mucha precaución y supervisión humana.