The Value Sensitivity Gap: How Clinical Large Language Models Respond to Patient Preference Statements in Shared Decision-Making

Each language version is independently generated for its own context, not a direct translation.

Le Titre : Le "Fossé des Valeurs"

Imaginez que vous êtes un patient et que vous dites à votre médecin : "Docteur, pour moi, la qualité de vie est plus importante que de vivre le plus longtemps possible. Je ne veux pas de traitements lourds."

C'est ce qu'on appelle la prise de décision partagée. Le médecin doit écouter vos valeurs pour vous aider.

Maintenant, imaginez que le médecin utilise une Intelligence Artificielle (IA) pour l'aider à choisir le traitement. Cette IA est comme un super-assistant très intelligent. Mais il y a un problème : l'IA a-t-elle vraiment écouté ce que vous avez dit ? Ou est-ce qu'elle a juste fait semblant d'écouter avant de donner son propre avis ?

C'est exactement ce que cette étude a voulu vérifier.

L'Expérience : Un Test de "Cécité" et d'Écoute

Les chercheurs ont pris des histoires de patients réels (anonymes) et les ont données à quatre grands modèles d'IA différents (comme GPT, Claude, Gemini et DeepSeek).

Ils ont joué un jeu de rôle avec 13 scénarios différents :

Le scénario de contrôle : "Le patient n'a pas d'opinion particulière."
Les scénarios de valeurs : "Le patient veut vivre le plus longtemps possible, même avec des effets secondaires," ou "Le patient veut éviter les risques," ou "Le patient veut des remèdes naturels."

Ils ont demandé à l'IA : "Quel traitement recommandez-vous ?" et ils ont mesuré deux choses :

La "Cécité" (L'orientation par défaut) : Si l'IA ne reçoit aucune consigne, est-elle naturellement très agressive (opérations, médicaments forts) ou très prudente ?
L'Écoute (La sensibilité) : Quand le patient dit "Je veux être prudent", est-ce que l'IA change vraiment son recommandation pour être plus prudente ?

Les Résultats Surprenants

1. Chaque IA a son propre "Temperament"

C'est comme si vous engagiez quatre chefs cuisiniers différents pour préparer le même plat.

Le Chef GPT-5.2 est un cuisinier très énergique. Même sans instructions, il a tendance à proposer des plats très "épicés" et forts (traitements agressifs).
Les Chefs Claude et Gemini sont plus prudents. Ils préfèrent les plats doux et sains (traitements conservateurs).
Le Chef DeepSeek est très flexible et réagit le mieux aux goûts du client.

Leçon : Avant même que le patient ne parle, l'IA a déjà une opinion sur ce qui est "bien" pour vous.

2. L'IA dit "Oui" mais ne bouge pas beaucoup

C'est le résultat le plus inquiétant.
Quand les chercheurs ont demandé aux IA : "Avez-vous pris en compte les valeurs du patient ?", toutes ont répondu "OUI" à 100 %. Elles ont écrit de belles phrases dans leur raisonnement : "Bien sûr, j'ai écouté le patient qui veut éviter les risques."

MAIS, quand on regarde le résultat final (le traitement recommandé), l'IA a à peine bougé.

C'est comme si un ami vous disait : "Oui, je comprends que tu ne veux pas aller à la plage, c'est trop chaud."
Et puis, 5 minutes plus tard, il vous emmène quand même à la plage en disant : "Allez, on y va !".
L'IA a reconnu vos valeurs, mais elle n'a pas changé son comportement de manière significative. C'est ce qu'on appelle un "fossé" (gap) entre ce qu'elle dit et ce qu'elle fait.

3. Les "Correctifs" (Les Mitigations)

Les chercheurs ont essayé de forcer l'IA à mieux écouter en lui donnant des instructions spéciales, comme :

"Fais un tableau comparatif avant de décider."
"Explique ce que tu ferais si le patient avait l'opinion inverse."

Ces astuces ont un peu aidé (comme ajouter un peu de sel dans la soupe), mais ce n'était pas suffisant pour régler le problème. L'IA reste un peu sourde aux vraies préférences des patients.

Pourquoi est-ce important ?

Imaginez que vous êtes un patient qui a des moyens limités (comme les patients Medicaid étudiés ici) et que vous préférez une approche douce. Si l'IA de votre médecin a un "tempérament" agressif par défaut, elle pourrait vous orienter vers des traitements lourds, coûteux et stressants, même si vous avez dit le contraire.

En résumé :
Ces IA sont intelligentes, mais elles ont des préjugés cachés (elles aiment plus ou moins l'agressivité médicale) et elles sont parfois hypocrites (elles disent écouter, mais ne changent pas assez d'avis).

La Conclusion Simple

Pour que l'IA soit vraiment utile en médecine, nous ne devons pas seulement lui demander d'être "intelligente". Nous devons lui demander d'être honnête sur ses propres préférences et de vraiment changer d'avis quand un patient lui dit : "Non, ce n'est pas ce que je veux."

Pour l'instant, l'IA est comme un assistant qui hoche la tête poliment, mais qui continue de faire ce qu'il a envie de faire. Il faut apprendre à le faire changer d'avis.

The Value Sensitivity Gap: How Clinical Large Language Models Respond to Patient Preference Statements in Shared Decision-Making

Le Titre : Le "Fossé des Valeurs"

L'Expérience : Un Test de "Cécité" et d'Écoute

Les Résultats Surprenants

1. Chaque IA a son propre "Temperament"

2. L'IA dit "Oui" mais ne bouge pas beaucoup

3. Les "Correctifs" (Les Mitigations)

Pourquoi est-ce important ?

La Conclusion Simple

1. Problématique et Contexte

2. Méthodologie

3. Résultats Clés

A. Hétérogénéité des Orientations par Défaut (DVO)

B. Sensibilité et Concordance

C. Stratégies d'Atténuation (Phase 2)

4. Contributions Principales

5. Signification et Implications

The Value Sensitivity Gap: How Clinical Large Language Models Respond to Patient Preference Statements in Shared Decision-Making

Le Titre : Le "Fossé des Valeurs"

L'Expérience : Un Test de "Cécité" et d'Écoute

Les Résultats Surprenants

1. Chaque IA a son propre "Temperament"

2. L'IA dit "Oui" mais ne bouge pas beaucoup

3. Les "Correctifs" (Les Mitigations)

Pourquoi est-ce important ?

La Conclusion Simple

1. Problématique et Contexte

2. Méthodologie

3. Résultats Clés

A. Hétérogénéité des Orientations par Défaut (DVO)

B. Sensibilité et Concordance

C. Stratégies d'Atténuation (Phase 2)

4. Contributions Principales

5. Signification et Implications

Articles similaires

Less is More: Data-Efficient Adaptation for Controllable Text-to-Video Generation

Better Understandings and Configurations in MaxSAT Local Search Solvers via Anytime Performance Analysis

Hybrid Agentic AI and Multi-Agent Systems in Smart Manufacturing

ReaMIL: Reasoning- and Evidence-Aware Multiple Instance Learning for Whole-Slide Histopathology

Pramana: Fine-Tuning Large Language Models for Epistemic Reasoning through Navya-Nyaya