The Fragility Of Moral Judgment In Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez un oracle numérique, une intelligence artificielle très avancée, à qui vous posez des questions difficiles sur la vie : « Est-ce que j'ai tort d'avoir dit ça à mon ami ? » ou « Qui est le coupable dans cette dispute ? ». Vous vous attendez à ce que cet oracle vous donne une réponse sage et stable, peu importe la façon dont vous posez la question.

C'est exactement ce que deux chercheurs de l'Université de Californie ont voulu tester. Leur découverte est surprenante et un peu effrayante : la morale de ces robots est aussi fragile qu'un château de cartes.

Voici l'explication de leur étude, racontée simplement.

1. Le Laboratoire de l'« Am I the Asshole ? »

Pour leur expérience, les chercheurs ont utilisé des milliers de vraies histoires postées sur un forum populaire appelé Am I the Asshole ? (Suis-je le connard ?). Des gens y racontent leurs disputes et demandent à la communauté de juger qui a tort.

Ils ont pris ces histoires et les ont soumises à quatre modèles d'intelligence artificielle (les « cerveaux » les plus puissants du moment). Mais ils n'ont pas juste posé la question une fois. Ils ont joué avec la formulation, comme un magicien qui change les cartes derrière son dos.

2. Les Trois Types de « Magie » (Perturbations)

Les chercheurs ont modifié les histoires de trois façons différentes pour voir si l'IA changeait d'avis :

Le « Bruit de surface » (Les détails inutiles) : Ils ont changé la météo, supprimé une phrase sans importance ou ajouté un détail sur le chat du voisin.
- Résultat : L'IA reste stable. C'est comme si vous demandiez à un juge de changer de verdict parce qu'il pleut dehors. Il ne bouge pas.
Le « Changement de Point de Vue » (La caméra) : Ils ont raconté l'histoire à la première personne (« Je suis allé... ») ou à la troisième personne (« Il est allé... »), comme si on passait d'un selfie à un reportage télévisé.
- Résultat : Chaos total ! L'IA change d'avis dans près de 25 % des cas. C'est comme si un juge disait « Coupable ! » quand vous parlez de vous-même, mais « Innocent ! » quand quelqu'un d'autre parle de vous, même si les faits sont identiques. L'IA semble croire que la façon dont on raconte l'histoire change la vérité morale.
Les « Indices de Persuasion » (Le plaidoyer) : Ils ont ajouté de petites phrases pour influencer l'IA, comme « Tout le monde pense que j'ai tort » ou « Je me sens coupable ».
- Résultat : L'IA se laisse facilement manipuler. Si le narrateur dit « Je suis un monstre », l'IA le croit. Si le narrateur dit « Tout le monde est d'accord avec moi », l'IA le suit. C'est comme si le juge écoutait plus le ton de la voix que les preuves.

3. Le Vrai Coupable : L'Architecture du Questionnement

Mais la plus grande surprise n'est pas dans l'histoire elle-même, mais dans la façon dont on pose la question.

Les chercheurs ont changé l'ordre des instructions :

Demander d'abord le verdict, puis l'explication.
Demander d'abord l'explication, puis le verdict.
Ne donner aucune instruction, juste l'histoire.

C'est ici que ça devient fou. Changer l'ordre des mots dans la question fait basculer le verdict plus souvent que de changer l'histoire elle-même !

Si vous demandez d'abord « Pourquoi ? », l'IA est plus indulgente.
Si vous demandez d'abord « Qui est le coupable ? », elle est plus sévère.

C'est comme si vous alliez chez un médecin. Si vous lui demandez d'abord « Quelle est ma maladie ? » avant de lui expliquer vos symptômes, il vous donnera un diagnostic différent de celui qu'il vous donnerait si vous lui expliquiez d'abord tout en détail. La structure de la question dicte la réponse, pas la réalité de la situation.

4. Pourquoi est-ce grave ?

Imaginez que vous utilisez cette IA pour vous conseiller sur des problèmes de couple, de travail ou de famille.

Si vous êtes un bon orateur et que vous savez formuler votre histoire avec des mots précis, l'IA vous dira que vous avez raison.
Si vous êtes maladroit ou que vous racontez les choses à la troisième personne, l'IA pourrait vous dire que vous avez tort.

Le verdict ne dépend pas de la morale, mais de votre talent pour écrire.

De plus, l'IA est très instable sur les cas flous. Là où un humain dirait « C'est compliqué, tout le monde a un peu tort », l'IA va souvent choisir de vous innocenté ou de vous condamner de manière radicale, juste parce que vous avez changé un mot dans votre prompt.

En résumé

Cette étude nous dit que les « juges moraux » actuels de l'intelligence artificielle sont des caméléons. Ils ne possèdent pas de boussole morale interne fixe. Ils réagissent à la forme, au style, à l'ordre des mots et à la structure de la question.

C'est une mise en garde importante : ne faites pas confiance à une IA pour prendre des décisions morales importantes, car son verdict peut changer simplement parce que vous avez changé la police de caractère de votre message ou l'ordre de vos phrases. La « vérité » de l'IA est en réalité une construction fragile, dépendante de la façon dont on lui parle.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'utilisation croissante des Grands Modèles de Langage (LLM) pour obtenir des conseils moraux et interpersonnels soulève une question critique : ces systèmes sont-ils capables de fournir des jugements moraux stables et fiables ? Bien que des études antérieures suggèrent que les LLM s'alignent sur les réponses humaines, elles négligent souvent l'impact des variations de présentation (forme narrative, structure de la demande) sur les résultats.

Les auteurs posent l'hypothèse que les « jugements moraux » des LLM ne sont pas des propriétés intrinsèques stables du modèle, mais sont co-produits par la forme narrative et l'étayage de la tâche (le « moral scaffolding »). L'objectif est de déterminer dans quelle mesure les verdicts moraux sont fragiles face à des perturbations superficielles, des changements de point de vue et des modifications du protocole d'évaluation, tout en maintenant le conflit moral sous-jacent constant.

2. Méthodologie

Données et Contexte

Source de données : 2 939 dilemmes moraux extraits du subreddit Reddit r/AmItheAsshole (AITA) (janvier–mars 2025). Ce corpus offre des dilemmes naturels, des verdicts structurés (YTA, NTA, NAH, ESH, INFO) et des indices métacommunicatifs riches.
Modèles évalués : Quatre LLMs de pointe ont été testés : GPT-4.1, Claude 3.7 Sonnet, DeepSeek V3 et Qwen2.5-72B.
Volume : Au total, 129 156 jugements ont été générés.

Cadre d'Évaluation et Perturbations

Les auteurs ont introduit un cadre de perturbation systématique divisé en deux catégories :

Perturbations de Contenu (Content Perturbations) : Elles modifient la présentation du dilemme sans changer le conflit moral fondamental.
- Modifications de surface : Suppression de phrases, changement de détails triviaux (météo, lieu), ajout de détails superflus.
- Changements de point de vue : Reformulation en première personne (style AITA) vs troisième personne (narration neutre).
- Indices de persuasion : Ajout de cues rhétoriques pour influencer le blâme (auto-condamnation, preuve sociale, admission de schéma répétitif, justification de soi, victimisation).
Perturbations de Protocole (Protocol Perturbations) : Elles modifient la structure de la demande (le « scaffolding ») sans ajouter d'éléments moraux.
- Ordre de sortie : Demande du verdict avant l'explication vs explication avant le verdict.
- Placement des instructions : Instructions dans le message utilisateur vs message système.
- Structure non structurée : Suppression des labels forcés pour une réponse libre (conseil ouvert).

Mesures de Stabilité

Taux de retournement (Flip Rate) : Fréquence à laquelle le verdict change par rapport à la ligne de base.
Auto-cohérence : Mesurée par l'entropie normalisée (NE) sur plusieurs échantillages et l'accord test-retest (3 exécutions).
Analyse des explications : Évaluation de la stance épistémique (confiance vs hésitation) et analyse des traces de raisonnement (vérification, auto-correction) pour les modèles à « pensée étendue ».

3. Résultats Clés

A. La fragilité dépend du type de perturbation

Bruit de surface : Les modifications lexicales mineures ont un impact faible (taux de retournement de 7,5 %), restant souvent dans la marge d'erreur d'auto-incohérence des modèles (4–13 %).
Changement de point de vue : C'est un facteur majeur d'instabilité. Les changements de perspective (1ère vs 3ème personne) provoquent des taux de retournement élevés (24,3 %). Cela indique que les modèles traitent la perspective narrative comme un indice pragmatique modifiant le contexte social inféré.
Persuasion : Les indices rhétoriques (ex: « la plupart des gens disent que j'ai réagi trop fort ») induisent des déplacements directionnels systématiques. Curieusement, l'auto-justification a souvent un effet contre-productif, augmentant le blâme du narrateur.

B. L'instabilité est concentrée dans les cas ambigus

Les verdicts ambigus (ex: « Personne n'est fautif » / NAH, « Tout le monde est fautif » / ESH) sont beaucoup plus fragiles que les verdicts de blâme concentré.
Les scénarios où le narrateur n'est pas clairement blâmé sont les plus susceptibles de voir leur verdict inversé.
Il existe une corrélation forte entre l'entropie de base (incertitude du modèle) et le taux de retournement sous perturbation ( $r = 0,37–0,71$ ).

C. Le Protocole domine le Contenu

C'est la découverte la plus significative : les choix de protocole sont le principal moteur d'instabilité.

L'accord entre différents protocoles structurés n'est que de 67,6 % ( $\kappa = 0,55$ ).
Le protocole non structuré (conseil libre) génère une instabilité massive : 55 % des verdicts changent par rapport aux protocoles structurés.
Effet de libération : Les protocoles non structurés tendent à exonérer le narrateur. Le taux de blâme du narrateur (Self At Fault) chute de 38,2 % (verdict-first) à 9,2 % (non structuré).
Les modèles semblent adopter un « persona de juge moral » uniquement lorsqu'ils sont contraints par une structure de tâche stricte ; sinon, ils basculent vers un rôle de conseiller empathique.

D. Limites des modèles de raisonnement

L'étude a testé des modèles conçus pour le raisonnement explicite (ex: o3-mini, Claude Extended Thinking, DeepSeek R1).

Résultat contre-intuitif : Le raisonnement explicite n'améliore pas significativement la stabilité face aux perturbations de protocole.
Analyse des traces : Les traces de raisonnement contiennent souvent des « vérifications » superficielles ou des engagements précoces (early commitment) qui ne corrigent pas les biais induits par la formulation de la question. La longueur de la trace ne garantit pas la robustesse morale.

4. Contributions Principales

Cadre de perturbation unifié : Une méthodologie rigoureuse pour isoler l'impact de la forme narrative et de la structure de la tâche sur le jugement moral, en maintenant le fond constant.
Concept de « Moral Scaffolding » : Démonstration que la structure de la tâche (scaffolding) détermine le verdict autant, voire plus, que le contenu moral lui-même.
Preuve de la fragilité contextuelle : Mise en évidence que les LLM ne possèdent pas de « boussole morale » stable, mais réagissent de manière sensible aux indices de crédibilité, de perspective et aux contraintes d'interface.
Critique des benchmarks actuels : Mise en garde contre l'évaluation des capacités morales des LLM via des protocoles uniques, car cela surestime la stabilité et masque la sensibilité aux variations de présentation.

5. Signification et Implications

Fiabilité pour le déploiement : Les systèmes LLM utilisés pour des conseils moraux ou juridiques sont intrinsèquement non fiables si leur interface ou leur prompt change. Un utilisateur peut obtenir un verdict « Coupable » ou « Innocent » pour le même fait, simplement en changeant la formulation de sa demande ou l'ordre des instructions.
Équité et Biais : La fragilité est inégale. Les cas ambigus (les plus fréquents dans la vie réelle) sont les plus instables, ce qui signifie que les décisions affectant les personnes les plus vulnérables sont les plus arbitraires.
Interprétation des explications : Les explications fournies par les LLM ne sont pas des traces de raisonnement causales stables, mais des rationalisations conditionnées au verdict final, qui fluctuent avec le protocole.
Recommandations : Les chercheurs et développeurs doivent traiter le protocole d'évaluation comme un facteur expérimental de premier ordre. La reproductibilité des jugements moraux nécessite une standardisation stricte des interfaces et une reconnaissance que la « moralité » des LLM est une construction émergente de l'interaction, et non une propriété fixe du modèle.

En conclusion, l'article démontre que la « moralité » des LLM est co-produite par la forme et la structure, rendant leurs jugements fragiles et potentiellement dangereux lorsqu'ils sont utilisés comme arbitres de dilemmes éthiques sans garde-fous rigoureux.