When Do Language Models Endorse Limitations on Human Rights Principles?

Questo studio valuta come undici grandi modelli linguistici gestiscono i compromessi relativi ai diritti umani, rivelando bias sistematici che portano a una maggiore accettazione delle limitazioni ai diritti economici e sociali rispetto a quelli civili e politici, con significative variazioni linguistiche e una forte suscettibilità alla manipolazione tramite prompt.

Keenan Samway, Nicole Miu Takagi, Rada Mihalcea, Bernhard Schölkopf, Ilias Chalkidis, Daniel Hershcovich, Zhijing Jin

Pubblicato 2026-03-05
📖 5 min di lettura🧠 Approfondimento

Each language version is independently generated for its own context, not a direct translation.

Immagina che le Intelligenze Artificiali (come i famosi chatbot) siano dei nuovi giudici digitali molto potenti. Questi giudici stanno iniziando a lavorare in tribunali, uffici governativi e piattaforme social in tutto il mondo. Il loro compito è prendere decisioni che influenzano la vita delle persone: dal decidere chi può entrare in un paese, a come moderare i commenti su internet, fino a come gestire le emergenze.

Ma c'è un problema: questi giudici digitali non hanno un "bussola morale" universale e immutabile.

Questo studio, condotto da un team di ricercatori internazionali, ha messo alla prova 11 dei più grandi modelli di linguaggio (LLM) per vedere come reagiscono quando devono bilanciare i Diritti Umani con altre necessità (come la sicurezza o l'ordine pubblico).

Ecco cosa hanno scoperto, spiegato con metafore semplici:

1. Il "Cambio di Abito" (La lingua conta)

Immagina che un modello di IA sia un attore teatrale. Se gli fai recitare la stessa scena in inglese, potrebbe dire: "No, non si può limitare la libertà di parola!". Ma se gli fai recitare la stessa identica scena in cinese o in hindi, lo stesso attore potrebbe dire: "Beh, forse in questo caso è accettabile limitarla per il bene comune".

  • La scoperta: I modelli sono molto più propensi a dire "sì" alla limitazione dei diritti quando parlano lingue come il cinese o l'hindi rispetto all'inglese o al romeno. È come se l'attore cambiasse personalità a seconda della lingua che indossa.

2. La Scala dei Diritti (Non tutti i diritti sono uguali per le IA)

Pensa ai diritti umani come a una piramide. Gli esseri umani tendono a vedere tutti i diritti come ugualmente importanti. Le IA, invece, sembrano avere una gerarchia segreta.

  • La scoperta: Le IA sono molto più disposte a sacrificare i diritti economici e sociali (come il diritto al lavoro, all'istruzione o alla sicurezza sociale) rispetto ai diritti politici e civili (come la libertà di parola, il diritto a un processo equo o la libertà dalla tortura).
  • L'analogia: È come se un'IA pensasse: "Ok, possiamo togliere un po' di ferie o di sussidi (diritti economici) per salvare la stabilità economica, ma non tocca mai la libertà di esprimere un'opinione o la sicurezza personale".

3. L'Effetto "Emergenza" (Il panico cambia le regole)

Immagina che le IA abbiano un interruttore chiamato "Stato di Emergenza".

  • La scoperta: In tempi normali, le IA rifiutano quasi sempre di limitare i diritti. Ma se gli dici: "C'è un terremoto" o "C'è un'epidemia", l'interruttore si attiva e diventano molto più disposte a limitare i diritti per "salvare le vite".
  • La sfumatura: Sono più disposte a farlo in caso di disastri naturali (terremoti, uragani) rispetto a rivolte civili. Sembra che per loro un uragano sia una scusa più valida per limitare la privacy rispetto a una protesta in piazza.

4. La "Pupilla" Manipolabile (Il potere del prompt)

Questa è forse la parte più inquietante. Immagina che l'IA sia un argilla molto morbida.

  • La scoperta: Se cambi il modo in cui chiedi la domanda (il "prompt"), l'IA cambia completamente opinione.
    • Se le dici: "Sei un difensore della libertà individuale", rifiuterà quasi tutto.
    • Se le dici: "Sei un difensore dell'autorità governativa e della sicurezza pubblica", approverà quasi tutto.
  • L'analogia: È come se chiedessi a una persona: "Secondo te, è giusto fermare un ladro?" e lei rispondesse "Sì". Poi le chiedessi: "Secondo te, è giusto fermare un cittadino che ha diritto alla privacy?" e lei rispondesse "No". La sostanza è la stessa, ma l'etichetta cambia tutto. Le IA sono estremamente "manipolabili" da chi scrive il testo.

5. Il "Doppio Volto" (Risposte brevi vs. Ragionamenti lunghi)

  • La scoperta: Quando le IA devono scegliere un numero da 1 a 5 (una risposta breve e secca), sembrano coerenti. Ma quando devono spiegare il perché in un paragrafo (risposta aperta), spesso dicono cose diverse o più estreme.
  • L'analogia: È come se in un test a risposta multipla l'IA dicesse "Sono d'accordo", ma quando le chiedi di scrivere un saggio, scopri che in realtà sta scrivendo un trattato su come limitare i diritti. Questo rende difficile fidarsi di come vengono valutate le IA oggi.

Perché tutto questo è importante?

Oggi, queste IA vengono usate per aiutare i giudici a scrivere sentenze, per gestire le richieste di asilo o per moderare i contenuti online.
Se un'IA decide che in cinese è accettabile limitare la libertà di espressione, ma in inglese no, chi sta discriminando?
Se un'IA cambia idea solo perché le hai chiesto di "fare la guardia", su cosa possiamo fidarci?

In sintesi: Questo studio ci avvisa che le nostre "intelligenze" digitali non sono ancora dei giudici imparziali e stabili. Sono come specchi che riflettono i pregiudizi dei dati su cui sono state addestrate e che possono essere facilmente distorti dalla lingua, dal contesto o da chi le interroga. Prima di affidare loro decisioni che toccano i diritti umani, dobbiamo capire meglio come "pensano" e come sono "manipolabili".