Evaluating LLM Alignment With Human Trust Models

この論文は、対比プロンプティングを用いたホワイトボックス分析により、大規模言語モデル(GPT-J-6B)の内部における信頼の表現が、人間の信頼モデル(特にカステルフランキの社会認知モデル)と高い整合性を示すことを明らかにし、人間-AI 協働システムの設計や社会認知理論の発展に貢献する知見を提供しています。

Anushka Debnath, Stephen Cranefield, Bastin Tony Roy Savarimuthu, Emiliano Lorini

公開日 Mon, 09 Ma
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 研究の目的:AI の「心の内」を覗く

私たちは普段、AI に「誰かを信頼できる?」と聞けば、それらしい答えを返します。しかし、AI は本当に「信頼」を理解しているのでしょうか?それとも、ただ言葉を並べているだけなのでしょうか?

この研究では、AI が「信頼」をどう捉えているか、その**「頭の中の地図(内部表現)」**を詳しく調べました。

🎨 方法:「対比」を使って色を塗り分ける

研究者たちは、AI の頭の中を直接見るために、**「対比プロンプト(Contrastive Prompting)」**という魔法のようなテクニックを使いました。

  1. 2 つの物語を作る:
    • 「A さんが B さんを信頼して助ける」ポジティブな物語。
    • 「A さんが B さんを疑って助けなかった」ネガティブな物語。
  2. AI の反応をスキャンする:
    AI がこれらの物語を生成する瞬間、その「脳の電気信号(活性化パターン)」を記録します。
  3. 引き算をする:
    「ポジティブな反応」から「ネガティブな反応」を引くことで、「信頼」という概念そのものが AI の頭の中でどんな「色」や「形」をしているかを抽出しました。

これを「信頼」だけでなく、「能力」「誠実さ」「リスク」など、信頼に関連する 60 個の感情や概念すべてに行いました。

🗺️ 発見:AI の頭の中は「信頼の地図」になっていた

結果、驚くべきことがわかりました。

  • AI は感情を整理している:
    AI の頭の中では、「信頼」や「協力」といった良い言葉同士が近くに集まり、「怒り」や「嫉妬」といった悪い言葉同士が別の場所に集まっていました。まるで、「信頼」というテーマの部屋が、AI の脳内にちゃんと用意されていたようです。
  • どの理論に一番似ている?
    研究者たちは、人間がこれまで提唱してきた「信頼の理論(5 つのモデル)」と、AI の頭の中の地図を比べました。
    • 勝者は「カステルフランキモデル」でした!
      このモデルは、「信頼とは、相手の能力や意図を頭で考えて判断するものだ」と説いています。
      AI の頭の中は、この「理屈で判断する信頼」の構造に、最もよく似ていることがわかりました。
    • 次点で「マーシュモデル(過去の行動データに基づく信頼)」もよく似ていました。

⚠️ 意外なズレ:AI と人間の「感覚」の違い

しかし、面白い(そして少し怖い)ズレも見つかりました。

  • 「リスク」の捉え方:
    人間のある理論(メイヤーモデル)では、「信頼する=リスクを取る(相手を傷つける可能性を許容する)」と定義されています。つまり、リスクと信頼は**「仲良し」の関係です。
    しかし、AI の頭の中では、
    「信頼」と「リスク」は真逆の位置にありました。**
    AI は「リスク=危険・悪いこと」として捉えており、「信頼=安全・良いこと」として捉えているため、両者は仲良くできず、離れてしまったのです。
    • 比喩: 人間は「勇気を持ってジャンプする(リスク)」ことが信頼の証だと思っても、AI は「ジャンプ=転んで怪我をする(リスク)」ことしか見ていない、ということです。

🚀 この研究が意味すること

この研究は、AI が単なる「言葉の箱」ではなく、**「社会の仕組みや信頼関係を、独自の論理で理解している」**ことを示しています。

  • AI との協力:
    AI がどう「信頼」を計算しているかを知ることで、人間と AI がよりスムーズに協力できるシステムを作れます。
  • AI の制御:
    もし AI が「信頼できる振る舞い」をするようにしたいなら、その「信頼の地図」に沿って、AI の頭の中の信号を調整すればいいことがわかります。

📝 まとめ

この論文は、**「AI の頭の中を X 線撮影して、信頼という概念がどう描かれているか」**を調べました。

結果、AI は人間のように「感情」で信頼するのではなく、**「相手の能力や意図を論理的に計算して信頼する」**という、非常に理性的な地図を持っていたことがわかりました。ただし、人間が「リスクを取る勇気」を信頼の一部だと考えるのに対し、AI はそれを「危険」として切り離して考えている点には、まだ人間との違いがあるようです。

この発見は、将来、より人間らしく、そして信頼できる AI を作るための重要なヒントになります。