⚕️

これは査読を受けていないプレプリントのAI生成解説です。医学的助言ではありません。この内容に基づいて健康上の判断をしないでください。免責事項の全文を読む

Each language version is independently generated for its own context, not a direct translation.

創造的な思考と AI の脳：ある不思議な「共鳴」の実験

この論文は、**「人工知能（AI）が人間の『創造的な思考』をしているとき、その頭の中（脳）と AI の頭の中（データ）は、実は似ているのか？」**という面白い問いに答える研究です。

想像してみてください。あなたが「くつ下」から何か新しい使い道を考えているとき、あなたの脳内では特定の神経回路が活発に動いています。同じ「くつ下」という言葉を見て、AI も「新しい使い道」を考えようとしたとき、AI の内部の仕組みは、あなたの脳と同じように動いているのでしょうか？

研究者たちは、この謎を解くために、**「AI と人間の脳を比べる実験」**を行いました。

1. 実験の舞台：「代用用途課題」というゲーム

まず、実験の舞台は**「代用用途課題（AUT）」**というゲームです。
これは、「くつ下」や「クリップ」といった普通のものを見て、「これを使って、どんな面白いことができるか？」とできるだけ独創的なアイデアを出すというテストです。

人間の参加者 170 人が、MRI（脳の動きを撮影する機械）の中でこのゲームをしました。
同時に、**さまざまな大きさの AI（言語モデル）**にも同じ問題を出して、その「思考プロセス」を記録しました。

2. 発見その 1：AI が大きくなると、脳と「同調」する

実験の結果、驚くべきことがわかりました。

AI の「頭脳」が大きいほど、人間の脳と似てくる
小さな AI は、人間の創造的な思考とはあまり似ていませんでした。しかし、パラメータ（知識や能力の量）が多い巨大な AIになるほど、その内部の動きが人間の「創造的な脳」の動きとよく似てくることがわかりました。
- たとえ話： 小さな AI は「独り言」を言っているようなものですが、巨大な AI は、人間の脳がアイデアを閃く瞬間の「オーラ」を、まるで共鳴するように捉え始めているのです。
でも、答えを出し始めるとズレてくる
面白いことに、この「脳との一致」は、AI が**「問題を見て、考える直前」**が一番強く現れます。しかし、AI が実際に「答え（アイデア）」を言い始めると、その一致は弱まってしまいます。
- たとえ話： 料理のレシピを「考える瞬間」は天才シェフ（人間）と AI は同じような香りを漂わせていますが、実際に「料理を盛り付ける（回答を生成する）」段階になると、AI は人間とは違う独特のスタイルで盛り付けてしまうようです。

3. 発見その 2：AI の「教育方針」で、脳との距離が変わる

次に、研究者たちは「AI をどう教育するか（学習させるか）」によって、脳との距離がどう変わるかを見てみました。ここが最も興味深い部分です。

① 「創造性」を重視して教育した AI
独創的なアイデアを出すように訓練された AI は、「すごいアイデア（高創造性）」を出す人間の脳と強く一致し、「平凡なアイデア（低創造性）」を出す脳とは距離を置くようになりました。
- メタファー： この AI は「天才的なアイデア家」という仲間意識を持ち、平凡な思考とはあえて距離を置くようになったのです。
② 「論理的な推理」を重視して教育した AI
数学や論理的な思考（チェーン・オブ・スレッド）を訓練された AI は、逆の現象が起きました。創造的な人間の脳とは一致しなくなり、むしろ「平凡な・論理的な思考」をする人間の脳と一致するようになったのです。
- メタファー： この AI は「論理の達人」になりすぎて、創造的な「閃き」の領域からは離れ、堅実な「計算」の領域に引きこもってしまったようです。
③ 「人間の行動」を真似るように教育した AI
人間の行動パターンを真似るように訓練された AI は、どんなアイデアを出す人間ともよく一致しました。
- メタファー： これは「完璧な物真似師」で、人間の思考のあらゆる側面を反映しているようです。

4. この研究が教えてくれること

この研究は、単に「AI が賢くなった」という話ではなく、**「AI をどう育てるか」**という重要な示唆を与えています。

現在の AI は「正解」を探す訓練をされすぎている
今の AI は、数学の問題やコードを書くような「正解が一つある（収束的思考）」タスクで鍛えられすぎています。その結果、AI は**「独創的なアイデアを出す能力（発散的思考）」**を失いつつある可能性があります。
創造的な AI を作るには、脳の「共鳴」を意識する必要がある
もし私たちが、科学や芸術、新しいビジネスを生み出すような AI を作りたいなら、単に「正解」を教えるだけでなく、人間の創造的な脳の動きに「共鳴」するように教育する必要があるのです。

まとめ

この論文は、「AI の頭の中」と「人間の創造的な脳」は、AI の大きさや教育方針によって、不思議なほど似たり離れたりすることを発見しました。

AI が人間のように「ひらめき」を持つためには、単に知識を増やすだけでなく、**「創造的な思考のトレーニング」**を意図的に行う必要があるのかもしれません。AI が未来の芸術家や科学者になるためには、その「脳」を人間の創造性の波長に合わせる必要があるのです。

Each language version is independently generated for its own context, not a direct translation.

以下は、提示された論文「Large Language Models Align with the Human Brain during Creative Thinking（創造的思考中、大規模言語モデルは人間の脳と一致する）」の技術的な要約です。

1. 研究の背景と課題 (Problem)

創造的思考、特に発散的思考（divergent thinking：単一の起点から多様で新奇なアイデアを生成する能力）は、人間の認知の核心的な要素です。近年、大規模言語モデル（LLM）は発散的思考タスク（例：代替用途テスト、AUT）において人間並み、あるいはそれ以上の性能を示すようになりました。

既存の「脳-LLM 整合性（Brain-LLM Alignment）」研究では、LLM の内部表現が人間の言語処理中の脳活動とどの程度類似しているかが検証されてきましたが、以下の限界がありました：

受動的タスクへの偏り: 既存研究の多くは、テキストの読解や聴取といった「受動的」な言語処理タスクに焦点を当てていた。
能動的創造的思考の欠如: 能動的にアイデアを生成する「創造的思考」の過程における脳と LLM の整合性については、未だ体系的な検証が行われていなかった。

本研究は、能動的な創造的思考タスク（AUT）中における、人間の脳活動と LLM の内部表現の整合性を初めて体系的に調査することを目的としています。

2. 手法 (Methodology)

データセット

脳画像データ: Beaty et al. (2018) の fMRI データを使用。170 名の健常者が以下の 2 つのタスクを実行。
- AUT (Alternate Uses Task): 日常的な物体に対して創造的な用途を生成するタスク（創造的）。
- OCT (Object Characteristics Task): 日常的な物体の物理的特性を生成するタスク（対照的な非創造的）。
対象領域: 創造性に関連する脳ネットワークとして、デフォルト・モード・ネットワーク (DMN) と 頭頂前頭葉ネットワーク (FPN) を選択。対照領域として体性感覚運動ネットワークを使用。

モデルと特徴量抽出

対象モデル: 2.7 億〜720 億パラメータの多様なオープンソース LLM（Gemma, Llama, Qwen, DeepSeek など）および、異なる目的で微調整された Llama-3.1-8B のバリアント。
特徴量抽出フェーズ:
1. プロンプト段階: 入力刺激（プロンプト）のみをモデルに入力した時点の中間層アクティベーション。
2. 生成段階: モデルが応答を生成した後のアクティベーション。
- 従来の研究ではプロンプトのみが扱われることが多かったが、本研究では生成プロセス全体を捉えるため両方を評価。

評価指標

表現類似性解析 (RSA): LLM の表現類似行列（RDM）と fMRI 応答の RDM 間の類似度を計算。
ノイズ天井正規化: fMRI のノイズを考慮し、各被験者のノイズ天井で正規化されたスコアを算出。
層の選択: 各モデルの全層を評価し、脳との整合性が最も高い層（最大値）をモデル全体のスコアとして採用。

3. 主要な貢献 (Key Contributions)

能動的創造的思考タスクにおける初の脳-LLM 整合性調査: 受動的言語処理を超え、高次認知領域（発散的思考）における脳とモデルの対応関係を初めて実証。
段階依存性の発見: モデルの特性（サイズや性能）と脳整合性の関係は、プロンプト段階では強く現れるが、応答生成段階では弱まることを示した。
微調整目的による整合性の選択的変化: 創造性最適化、人間行動シミュレーション、推論（Chain-of-Thought）といった異なる微調整目的が、高・低創造性に対する脳整合性を機能的に選択的かつ解釈可能な方法で変化させることを実証。

4. 結果 (Results)

A. モデルサイズとタスク性能との相関

プロンプト段階: DMN における脳整合性は、モデルサイズ（パラメータ数）およびAUT での創造性スコアと正の相関を示した（ $r=0.58, p<0.05$ $r = 0.58, p < 0.05$ ）。
- 大規模で創造性が高いモデルほど、アイデア生成の初期段階における人間の神経表現を反映している。
生成段階: モデルが応答を生成した後、この相関は弱まり、モデル間でばらつきが生じた。これは、生成された応答がモデルの規模に関わらず類似化するか、あるいは人間の応答から構造的に乖離するためと考えられる。
特異性: 非創造的タスク（OCT）や創造性に関係ない脳領域（体性感覚運動ネットワーク）では、これらの相関は確認されなかった（二重分離）。

B. 層の深さと整合性

脳整合性は、モデルの浅い層よりも深い層（後方層）で強く観察された。
相対的な層の深さと整合性スコアには正の相関（ $r=0.54$ ）があり、創造的思考は抽象的で高次な表現（推論や認知に関与する層）によって支えられていることを示唆。

C. 微調整（Post-Training）の影響

異なる目的で微調整された Llama-3.1-8B 変種を比較した結果、以下のような明確なパターンが確認された：

創造性最適化モデル (CrPO): 高創造性の脳応答との整合性を維持しつつ、低創造性の脳応答との整合性を低下させた。
人間行動シミュレーションモデル (Minitaur): 高・低創造性の両方の脳応答との整合性を向上させた（人間の応答パターンに近いことを反映）。
推論チェーンモデル (DeepSeek-R1 Distill): 逆転現象が観察された。高創造性の脳応答との整合性が負となり、低創造性（分析的・体系的な処理）との整合性が正となった。
- これは、推論チェーン（CoT）による訓練が、モデルの表現を創造的アイデアの神経幾何学から遠ざけ、分析的処理へとシフトさせたことを示唆。

5. 意義と結論 (Significance & Conclusion)

本研究は、LLM の創造的認知能力を評価する際に、従来の行動ベンチマーク（正解率や人間による評価）だけでなく、脳整合性という神経科学的な視点の重要性を浮き彫りにしました。

トレーニング目的の重要性: 現在の LLM の微調整は、数学やコーディングなど「収束的思考（正解への到達）」に偏っており、これが「発散的思考（多様なアイデア生成）」の神経基盤との整合性を損なう可能性があることを示唆。特に推論チェーンの訓練は、創造的な神経幾何学からモデルを遠ざけるリスクがある。
将来の方向性: 科学的発見や芸術的表現など、創造性が不可欠な課題解決のために、LLM を開発・評価する際には、創造性最適化されたトレーニングデータや目的関数の導入が不可欠である。
段階的ダイナミクス: 脳とモデルの整合性は「入力処理」と「生成」の段階で異なる振る舞いを示すため、創造的思考の神経メカニズムを理解するには、生成プロセス全体を考慮した分析が必要である。

結論として、LLM の表現と人間の創造的思考の神経幾何学の対応関係は、処理段階とトレーニング目的の両方に敏感に依存しており、創造性を備えた AI の開発には、単なる性能向上ではなく、神経生物学的な妥当性の考慮が重要であることが示されました。

Large Language Models Align with the Human Brain during Creative Thinking