Evaluating LLM Alignment With Human Trust Models

Cette étude analyse la représentation interne de la confiance dans le modèle LLM GPT-J-6B en utilisant une approche de boîte blanche et révèle que ses concepts s'alignent le plus étroitement avec le modèle socio-cognitif de Castelfranchi, offrant ainsi des perspectives pour la conception de systèmes de collaboration humain-IA.

Anushka Debnath, Stephen Cranefield, Bastin Tony Roy Savarimuthu, Emiliano Lorini

Publié Mon, 09 Ma
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée de cette recherche, comme si nous en discutions autour d'un café.

🕵️‍♂️ Le Grand Détective : Comment l'IA "pense" la confiance ?

Imaginez que vous avez un ami très intelligent, un robot nommé GPT-J, qui a lu presque tout Internet. On sait qu'il peut écrire des poèmes, coder des logiciels et même simuler des conversations humaines. Mais une question cruciale reste sans réponse : Comment ce robot "ressent"-il la confiance ?

Est-ce qu'il voit la confiance comme une émotion chaude et humaine ? Ou est-ce qu'il la voit comme un simple calcul froid de probabilités ?

C'est exactement ce que les chercheurs de cette étude ont voulu découvrir. Au lieu de simplement demander au robot "Qui fais-tu confiance ?", ils ont décidé de faire une autopsie de son cerveau (une analyse "boîte blanche") pour voir comment la confiance est stockée dans sa mémoire interne.


🧠 L'Analogie de la "Carte des Sentiments"

Pour comprendre leur méthode, imaginez que le cerveau du robot est une immense bibliothèque invisible. Dans cette bibliothèque, chaque mot (comme "amour", "peur", "compétence") n'est pas écrit sur un livre, mais est représenté par un point lumineux flottant dans l'espace.

  • Si deux concepts sont très proches (comme "bonheur" et "joie"), leurs points lumineux sont collés l'un à l'autre.
  • Si deux concepts sont opposés (comme "bonheur" et "tristesse"), leurs points sont aux extrémités opposées de la bibliothèque.

Les chercheurs ont utilisé une technique appelée "Prompting Contrastif" (une sorte de test de personnalité). Ils ont demandé au robot d'imaginer deux scénarios opposés pour chaque émotion :

  1. Scénario positif : "Alice aide Bob avec joie."
  2. Scénario négatif : "Alice ignore Bob avec méchanceté."

En comparant la "lumière" (les données internes) de ces deux scénarios, ils ont pu tracer la direction exacte de chaque émotion dans le cerveau du robot. C'est comme si ils avaient créé une boussole pour chaque sentiment.


🧩 Le Test des Théories : Qui a raison ?

Les humains ont créé plusieurs théories (des "recettes") pour expliquer ce qu'est la confiance. Les chercheurs ont pris cinq grandes recettes célèbres (celles de Marsh, Mayer, McAllister, McKnight et Castelfranchi) et ont demandé au robot :

"Selon ta carte interne, la confiance ressemble-t-elle plus à la recette A, à la recette B, ou à la recette C ?"

Ils ont mesuré la distance entre le point "Confiance" du robot et les points des ingrédients de chaque recette (comme "compétence", "honnêteté", "risque", "bienveillance").

Le résultat est surprenant :

Le cerveau du robot ne ressemble pas à la recette la plus simple (qui dit juste "je te fais confiance si tu as un bon historique"). Il ne ressemble pas non plus à la recette purement émotionnelle.

Il correspond le mieux à la "Recette Castelfranchi".

🏆 Pourquoi la recette Castelfranchi gagne-t-elle ?

Imaginez que la confiance, selon cette recette, est comme un chef d'orchestre. Ce n'est pas juste une question de "tu es gentil". C'est une combinaison complexe de :

  • La compétence : "Sais-tu jouer du violon ?"
  • La volonté : "Veux-tu vraiment jouer pour moi ?"
  • La prévisibilité : "Je sais ce que tu vas faire demain."

Le robot a appris, en lisant des milliards de textes humains, que pour faire confiance, il faut analyser ces trois éléments ensemble. C'est une vision très sociale et cognitive, proche de la façon dont nous, humains, réfléchissons quand nous décidons de faire confiance à quelqu'un.


⚠️ Une petite surprise (et un avertissement)

Il y a un détail amusant et inquiétant.
Dans la théorie de Mayer (une autre recette célèbre), la confiance est liée au Risque. L'idée est : "Je ne peux te faire confiance que si je prends le risque de me faire mal."

Mais dans le cerveau du robot, le mot "Confiance" et le mot "Risque" sont très éloignés (comme le Nord et le Sud). Pour le robot, prendre un risque ne semble pas être une partie naturelle de la confiance. C'est comme si le robot pensait : "La confiance, c'est de la sécurité, pas du danger."

Cela montre que le robot a une vision de la confiance qui est proche de la nôtre, mais pas parfaite. Il a appris les règles sociales, mais il a parfois des angles morts.


🚀 Pourquoi est-ce important pour nous ?

Cette étude est comme une carte au trésor pour le futur de l'IA.

  1. Comprendre le robot : On ne peut plus dire "c'est une boîte noire". On sait maintenant que le robot a une structure interne pour la confiance.
  2. Améliorer les robots : Si on sait que le robot associe la confiance à la "compétence" et à la "volonté", on peut lui donner des instructions précises pour qu'il se comporte de manière plus fiable. On peut littéralement "pousser" ses boutons internes pour qu'il soit plus honnête ou plus coopératif.
  3. Collaboration Humain-Robot : À l'avenir, nous pourrons créer des robots qui comprennent vraiment nos relations sociales, pas juste nos commandes. Imaginez un coach sportif IA qui comprend non seulement vos performances, mais aussi votre niveau de confiance en lui, et qui sait comment la renforcer.

En résumé

Les chercheurs ont ouvert le cerveau d'un robot pour voir comment il stocke la notion de confiance. Ils ont découvert qu'il utilise une carte mentale très sophistiquée, qui ressemble beaucoup à la façon dont les humains pensent à la confiance (basée sur la compétence et l'intention), mais avec quelques petites différences intéressantes. C'est un pas de géant pour créer des IA avec lesquelles nous pourrons vraiment collaborer et nous faire confiance.