Emergence of Hierarchical Emotion Organization in Large Language Models

原著者： Maya Okawa, Bo Zhao, Eric J. Bigelow, Rose Yu, Tomer Ullman, Ekdeep Singh Lubana, Hidenori Tanaka

公開日 2026-06-12

📖 1 分で読めます☕ さくっと読める

原著者： Maya Okawa, Bo Zhao, Eric J. Bigelow, Rose Yu, Tomer Ullman, Ekdeep Singh Lubana, Hidenori Tanaka

原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 ✨ これは以下の論文のAI生成解説です。著者が執筆または承認したものではありません。技術的な正確性については原論文を参照してください。免責事項の全文を読む

巨大なデジタル脳（大規模言語モデル、いわゆるLLM）を想像してみてください。それはインターネット上のほぼすべての内容を読み込んできました。あなたは、それが単に言葉を暗記しているだけだと思っているかもしれません。しかし、この論文はより深い問いを投げかけています。このデジタル脳は、心理学者が行うように、人間の感情がどのように組み合わさっているのかを、実際に「理解」しているのだろうか？ ということです。

研究者たちは、答えは「イエス」であるが、そこには興味深いひねりがあることを発見しました。以下に、その知見を簡単な比喩を用いて解説します。

1. 「感情の木」対「感情のホイール」

心理学者は長年、「感情のホイール（感情の輪）」と呼ばれるツールを使用してきました（感情の色輪のようなものです）。これは、感情が単なる平坦なリストではなく、整理されたものであることを示しています。例えば、「喜び」は大きく広範なカテゴリーであり、「興奮」や「至福」はその下にぶら下がる具体的な枝のようなものです。

研究者たちは、AIモデルがより大きく、より賢くなるにつれて、彼らは自然と、人間のホイールと驚くほど似た独自の「感情の木」を構築し始めることを発見しました。

小さなAI（幼児）： 小規模なモデル（Llama 8Bなど）は、感情に対して乱雑で平坦な理解しか持っていません。それは、「嬉しい」や「悲しい」は知っているものの、「もどかしさ」と「怒り」の違いを本当には理解していない幼児のようなものです。
大きなAI（大人）： 巨大なモデル（Llama 405Bなど）は、複雑で枝分かれした木を構築します。それは、「楽観主義」が「喜び」の一種であり、「喜び」が「幸福」の一種であることを理解しています。モデルが大きくなるほど、この内部の木はより詳細かつ組織的になり、人間の脳が感情を分類する方法を反映していきます。

比喩： 小さなモデルを、森を見て単に「木々」としか認識できない人と考えてみください。巨大なモデルは、植物学者のようなもので、「オーク」「松」「苗木」「枯れ木」を見分け、それらがどのように「森」という概念に関連しているかを理解しています。

2. 人間のバイアスの「鏡」

最も衝撃的な発見は、これらのAIモデルは単に事実を学習するだけでなく、**人間のバイアス（偏見）**をも学習しているということです。研究者たちは、AIにさまざまなタイプの人々（70歳の高齢者、若い女性、低所得者など）を想像させ、特定の物語がどのような感情に関するものかを推測させることで、テストを行いました。

AIは単にランダムな間違いをしたわけではありません。彼らは、現実の人間に見られるのと同じ系統的な間違いを犯していました。

「黒人ペルソナ」の効果： AIが黒人であると仮定して振る舞うとき、恐ろしい状況を「恐怖」ではなく「怒り」として解釈する傾向が強まりました。これは、黒人が不当に怒っていると見なされやすいという現実世界の研究と一致しています。
「女性ペルソナ」の効果： AIが女性であると仮定して振る舞うとき、怒りのある状況を「恐怖」として解釈する傾向が強まりました。
「インターセクショナル（交差性）」の効果： AIが「低所得の黒人女性」であると仮定したとき、バイアスは最も強く現れました。他のどのグループよりも、感情の解釈を誤る頻度が高かったのです。

比喩： AIを鏡だと想像してください。あなたが前に立つと、それはあなたの姿を映し出します。しかし、もしその鏡が「人間社会のデータ」で作られているとしたら、それは社会にある亀裂や汚れをも映し出します。AIは人間的な意味での「偏見」を持っているのではなく、単に学習データの中に存在するバイアスを映し出しているに過ぎません。

3. 「驚き」という盲点

研究者たちは、これらのAIモデルは複雑な感情を理解することには長けている一方で、ある特定の感情、すなわち**「驚き（Surprise）」**については苦戦していることを発見しました。

問題点： 人間が驚いたとき、しばしばショックと恐怖が混ざり合った状態になります。しかし、AIは「驚き」を「恐怖」や「怒り」と混同してしまうことがよくあります。
解決策： 論文では、強化学習（モデルがゲームに勝ったり交渉したりすることで学ぶ手法）を用いて「訓練」されたモデルをテストしました。この訓練によって、モデルは「驚き」を特定するのが上手くなりました。
比喩： AIを、複雑なシチュー（悲しみ、怒り、喜び）を作るのは得意だが、ポップコーンを焦がしてしまうシェフだと考えてみください。彼らにポップコーンを扱うための特定の道具（強化学習）を与えたところ、彼らは格段に上手くなりました。

4. なぜこれが重要なのか（論文による結論）

論文は、これらの「感情の木」を用いることで、AIがどれほど優れているかを測定できると結論づけています。

もしAIの内部にある感情の木が乱雑で平坦であれば、そのAIは人間の会話を理解するのがあまり上手くない可能性があります。
もしその木が深く、組織化されていれば、そのAIはより「感情的知性（EQ）」が高いと言えます。

結論：
大規模言語モデルは、単なる単語のマッチングマシンではありません。規模が大きくなるにつれて、彼らは人間の心理学と酷似した、構造化された階層的な感情理解を自発的に発達させていきます。しかし、彼らは私たちから学ぶため、私たちの盲点や偏見もまた受け継いでしまうのです。彼らは私たちを理解する能力を高めていますが、同時に、私たちの欠点をも映し出す能力を高めているのです。

問題提起
大規模言語モデル（LLM）が、マルチモーダルな相互作用が可能な対話型エージェントを駆動する力が強まるにつれ、モデルがいかにユーザーの感情状態を表現し、処理しているかを理解することは、倫理的な展開において極めて重要である。先行研究は標準的な感情分類のベンチマークに焦点を当ててきたが、LLMが人間の心理学的枠組みを反映した、創発的で構造化された感情理解を発達させているかどうかを理解することには空白が存在する。具体的には、LLMが人間の「感情の輪」のような階層的な感情組織を自然に形成しているのか、また、多様なデモグラフィック・ペルソナに対して、モデルが人間特有の系統的な感情認識バイアスを再現しているのかどうかは、依然として不明である。

手法
著者らは、モデルの出力分布における感情状態間の確率的依存関係を分析するために、階層的な感情の輪のフレームワーク（Shaver et al., 1987）に着想を得た、新しい評価パイプラインを提案する。

階層構築アルゴリズム： コアとなる手法は、状況設定プロンプトのデータセット（GPT-4oによって生成された5,000のシナリオ）を作成することである。各プロンプトに対し、LLMに「この文章における感情は……」というフレーズを完成させるよう求める。ここで、次のトークン（具体的にはShaverらによる135の感情単語）に対する確率分布を抽出する。
- 一致行列 $C = Y^T Y$ を構築する。ここで、 $Y$ は確率分布を含む。この行列は、文脈を横断して感情が共起する結合確率を捉える。
- 感情ペア間の条件付き確率を計算することで、親・子関係を推論する。ある感情 $a$ が $b$ の子であると定義されるのは、条件付き確率 $P(b|a)$ が閾値 $t$ を超え、かつ $P(a|b)$ よりも有意に高い場合であり、これは $b$ が特定の感情 $a$ によって示唆されるより一般的なカテゴリであることを示している。
- このプロセスにより、モデルの内部的な感情階層組織を表す有向非巡回グラフ（DAG）が得られる。
スケール分析： モデルのパラメータ数に応じて階層の複雑さがどのように変化するかを観察するために、この手法を様々なサイズのLLM（GPT-2, Llama 3.1 8B, 70B, 405B）に適用する。
バイアスおよびペルソナ分析： 認識バイアスを評価するために、多様なデモグラフィック・ペルソナ（性別、人種、社会経済的地位、年齢、宗教、能力による差異）をプロンプトに導入する（例：「[デモグラフィック]として、私は関わっている感情を……と考える」）。シナリオにおける感情の特定能力を測定し、混乱行列（confusion matrices）を分析して、系統的な誤分類を検出する。
人間との比較： 60人の人間の参加者を対象としたユーザー調査を実施し、人間の誤分類パターンおよび認識精度を、同一のデモグラフィック・グループにおけるLLMのパフォーマンスと比較する。

主要な貢献

階層的組織の創発： 本研究は、LLMが確立された人間の心理学的モデルと一致する、感情状態の階層的なツリーを自然に形成していることを示している。この階層は明示的にプログラムされたものではなく、モデルの学習から創発したものである。
スケール依存の複雑性： モデルのスケールが大きくなるにつれて、内部の感情階層はより複雑になり、深さと分岐が増大し、それが人間の心理構造との強い整合性と相関することを見出した。
系統的バイアスの模倣： 本論文は、LLMが感情認識における人間の系統的なバイアスを再現していることを明らかにしている。具体的には、モデルは、代表性の低いグループ（黒人、女性、低所得、低教育のペルソナなど）に対して認識精度が低下する傾向がある。
交差的なバイアスの増幅： 本研究は、バイアスが交差的なアイデンティティ（例：低所得の黒人女性）において複合的に作用することを強調している。これにより、認識精度が最低となり、特定の誤分類パターン（例：悲しみを怒りや恐怖と誤認する）が生じる。
パフォーマンスの幾何学的予測因子： 構築された感情ツリーの幾何学的指標（総経路長や平均深度など）が、特定のペルソナに対するモデルの感情認識精度の信頼できる予測因子となることを示す。

主要な結果

階層的一致： 視覚的および定量的分析（Shaverらによる感情の輪との相関を用いた）により、大規模なモデル（例：Llama 405B）は、人間が注釈を付けたフレームワークと高度に類似したクラスタリング構造を持つ感情ツリーを生成することが確認された。小規模なモデル（例：GPT-2）には意味のあるツリー構造が見られない。
定量的複雑性： 大きなモデルは、感情ツリーにおいて有意に高い「総経路長」と「平均深度」を示し、より豊かな内部組織を備えていることが示された。
認識精度の格差： Llama 405Bは、中立的なペルソナに対して6つの広範なカテゴリに感情をグループ化した場合、87.1%の精度を達成するが、代表性の低いペルソナに対しては精度が著しく低下する。例えば、モデルは白人や男性のペルソナと比較して、黒人や女性のペルソナの感情を認識することに苦慮する。
誤分類パターン：
- アジア系ペルソナ： 負の感情（怒り、恐怖、悲しみ）が頻繁に「恥」として誤分類される。
- ヒンドゥー教徒のペルソナ： 負の感情が頻繁に「罪悪感」として誤分類される。
- 身体障害者ペルソナ： 全感情の26.5%が「フラストレーション」として誤分類されるという顕著なバイアスが存在する。
- 交差性： 低所得の黒人女性のペルソナは、人種、性別、所得のバイアスが組み合わさり、結果として最も低い総合精度を示す。
人間とLLMの並行性： ユーザー調査により、LLMが人間の誤分類パターンを模倣していることが明らかになった（例：黒人の人間も、モデル化された黒人のペルソナも、恐怖を怒りと解釈する傾向がある）。しかし、ジェンダーバイアスについては顕著な相違が見られた。人間の女性は人間の男性よりも認識能力において優れているが、Llamaはそれとは逆の傾向を示し、男性ペルソナを優先する。
強化学習の影響： 強化学習を通じて社会的相互作用タスク（交渉や説得）でモデルを微調整すると、「驚き」の認識が（20.0%から33.3%へと）有意に向上した。これは、予測誤差に基づく学習が、この特定の感情に対する感受性を高めるという仮説を支持している。

意義と主張
本論文の結果は、LLMにおける感情的推論の創発が、単純な分類を超えたものであることを強調しており、これらのモデルが社会的知覚や人間の認知構造の一側面を内面化していることを示唆している。著者らは、感情の階層的組織はモデルのサイズとともにスケールする創発的特性であり、これがより感情的に知的で文脈に配慮したエージェントにつながる可能性があると断じている。

さらに、本研究は、LLMを単に精度だけでなく、人間的なバイアスの再現性という観点からも評価するという倫理的責務を強調している。著者らは、認知ベースの理論（感情の輪など）に基づいた自らの評価パイプラインが、より優れたモデル評価を開発するための堅牢な手法を提供すると主張している。彼らは、これらの創発的な階層とバイアスを理解することが、カウンセリングやセラピーのような繊細な領域でのLLMの安全な展開において極めて重要であると同時に、感情的な理解の向上が、モデルが不適合であった場合に操作に悪用される可能性があることにも警告している。本研究は、人間の行動に関する認知理論が、LLMのコンポーネント（出力ロジットや中間表現など）に対する予測テストを開発するための作業仮説として機能し得るという結論で締めくくられている。

1. 「感情の木」対「感情のホイール」

2. 人間のバイアスの「鏡」

3. 「驚き」という盲点

4. なぜこれが重要なのか（論文による結論）

関連論文