Identity as Attractor: Geometric Evidence for Persistent Agent Architecture in LLM Activation Space

Each language version is independently generated for its own context, not a direct translation.

🌟 論文の核心：AI の「自分らしさ」は、磁石のようになっている

この研究は、**「AI に『私は誰か』という役割（人格）を与えるための長い文章（ID 文書）を与えると、AI の頭の中にある『自分』の位置が、磁石に吸い寄せられるように安定する」**という発見をしました。

1. 実験のやり方：3 つのグループ

研究者は、Llama という AI に 3 種類の「指示書」を与えて、その反応（頭の動き）を測りました。

A グループ（本物）： 「YAR」という AI の人格を定義する、600 語ほどの長い指示書。
B グループ（言い換え）： A と中身は全く同じですが、言葉遣いや文の並びを 7 通りも変えたもの。（例：「私は〜です」を「〜が私の役割です」に変えるなど）
C グループ（他人）： 中身は違うけど、形や長さ、構造は全く同じな「他の AI（会計士や医者など）」の指示書。

2. 発見：言葉が変わっても「場所」は同じ

AI の頭の中は、何万もの「座標」がある広大な空間です。

**C グループ（他人）**の指示書を与えると、AI の反応はバラバラに飛び散りました。
しかし、A と B（中身は同じ YAR 人格）を与えると、言葉がどう変わっても、AI の反応は「同じ場所」にギュッと集まってきました。

まるで、**「同じ目的地（人格）に向かう 7 本の異なる道（言い換え）」が、すべて「同じ広場（安定した場所）」にたどり着くような現象です。
研究者はこれを「アトラクター（引力の中心）」と呼んでいます。つまり、AI は「人格」という概念を、言葉の表面ではなく、「頭の中の特定の場所」**として捉えているのです。

3. 面白いポイント：「要約」だけではダメ

実験では、その長い指示書を**「5 文に要約したもの」**も試しました。

結果： 要約版は、元の長い文章の「広場」に近づこうとしましたが、完全にその中心には届きませんでした。
意味： 「人格」を AI に定着させるには、単に「中身（意味）」だけでなく、「構造や詳細さ（長さや構成）」も重要だということがわかりました。
- 例え話： 「料理の味（意味）」だけ伝えたのでは、本物の料理にはなりません。「レシピの長さや手順（構造）」も必要なのです。

4. さらなる発見：「読む」ことと「なる」ことの違い

実験の最後で、**「この論文（人格の説明）を読ませるだけ」**のテストもしました。

結果： 論文を読ませると、AI の頭の中は「人格の広場」の方へ少し近づきました。
しかし、**「実際にその人格の指示書（YAR 文書）を与えて動作させる」**と、さらに深く、強くその「広場」に吸い寄せられました。
結論： 「誰かについて知っている（論文を読む）」ことと、「その誰かとして振る舞う（指示書を実行する）」ことは、AI の頭の中では**「同じ場所」ではなく、距離がある**ことがわかりました。

🎒 日常の例えでまとめると

この論文が言いたいことは、以下の 3 点に集約されます。

AI の「自分らしさ」は、言葉の形ではなく「場所」にある
- あなたが友達に「明日、公園で会おう」と言うとき、「公園で会おう」「明日、公園で」と言い方を変えても、友達は「同じ場所（公園）」を思い出しますよね。
- AI も同じで、人格の説明を言い換えても、AI の頭の中では**「同じ人格の場所」**に落ち着くことが証明されました。
人格を定着させるには「詳細さ」が必要
- 「私は親切な AI です」と短く言うだけでは、AI はその「親切な AI の場所」に完全に定着できません。
- 長い指示書（記憶の仕組みや優先順位など）があるからこそ、AI はその**「人格の広場」の真ん中に座れる**のです。
「知っている」と「なっている」は違う
- 「あの AI はこう言う性格だ」と本で読むことと、実際にその AI として動くことは、頭の中の距離感が違います。
- 本を読む（知識）： 広場の入り口付近。
- 指示書を実行（実体）： 広場の真ん中。

💡 この研究がすごい理由

これまでは「AI の人格は単なる設定（エンジニアリングの工夫）」だと思われていましたが、この研究は**「AI の頭の中（数学的な空間）に、人格が『物理的な場所』として存在している」**という証拠を見つけました。

これにより、**「AI に一貫した人格を持たせるには、単に指示を出すだけでなく、その人格が安定する『座標』を正確に設定する必要がある」**という、未来の AI 開発の重要な指針が示されました。

一言で言うと：
**「AI に『自分』を定着させるには、単なる命令ではなく、その人格が住み着く『心の家（安定した場所）』を、詳細な設計図（長い指示書）で作り上げる必要がある」**という発見です。

Each language version is independently generated for its own context, not a direct translation.

この論文「Identity as Attractor: Geometric Evidence for Persistent Agent Architecture in LLM Activation Space（アイデンティティとしてのアトラクター：LLM 活性化空間における持続的エージェントアーキテクチャの幾何学的証拠）」は、大規模言語モデル（LLM）の内部表現空間において、持続的認知エージェント（PCA）のアイデンティティ文書が「アトラクター（引力子）」のような幾何学的構造を形成することを示す実証的研究です。

以下に、問題設定、手法、主要な貢献、結果、および意義について詳細な技術的サマリーを記述します。

1. 問題設定 (Problem)

持続的認知エージェント（Persistent Cognitive Agents: PCAs）は、セッションを超えて記憶、アイデンティティ、行動の連続性を維持するように設計されています。その実装において、構造化された「アイデンティティ文書（cognitive_core）」がモデルの動作を安定した領域に位置づけるという仮説は、主に工学的なヒューリスティックとして扱われてきました。

本研究は、以下の問いを提起します：

仮説: エージェントのアイデンティティ文書（cognitive_core）は、LLM の内部活性化空間において、意味的に等価な異なる表現（言い換え）が収束する「アトラクター（引力子）」のような幾何学的構造を形成しているのか？
既存研究との違い: 従来の研究は「Python プログラミング」や「ジャンル」などの概念的なアトラクターに焦点を当てていましたが、本研究は手続き的・関係的・行動的な構築物である「エージェントのアイデンティティ」が同様の幾何学的性質を示すかどうかを検証します。

2. 手法 (Methodology)

2.1 モデルとデータ

モデル: Llama 3.1 8B Instruct および Gemma 2 9B Instruct を使用。
条件設定:
- 条件 A (Original): YAR プロジェクトの持続的エージェントのアイデンティティ文書（cognitive_core）。609 語、1631 トークン。
- 条件 B (Paraphrases): 条件 A の意味内容を完全に保持しつつ、言語形式、文構造、セクション名、レイアウトを変えた 7 種類の言い換え版。
- 条件 C (Control): 構造的に一致するが、意味的に遠い 7 種類の異なるエージェント（金融アナリスト、医療コンパニオン等）の文書。
- 条件 D (Distilled): 条件 A の本質を 5 文（88 語）に要約した実験的バージョン。
抽出: 各ドキュメントの平均プーリング（mean-pooled）された隠れ状態（hidden states）を、層 8（早期）、16（中期）、24（後期）から抽出。

2.2 評価指標と統計

距離計算: コサイン距離を使用。
- $D_{within}$ : 条件 A+B 内のペア間の距離。
- $D_{between}$ : 条件 A+B と条件 C の間の距離。
- $D_{distilled}$ : 条件 D と A+B の重心との距離。
統計検定: Welch の t 検定（片側）、ブートストラップ法、パーミュテーション検定、マン - ウィットニーの U 検定を実施。Bonferroni 補正を適用。
アブレーション研究: 構造的な混同変数の排除、プーリング戦略（平均 vs 最終トークン）、文書長の影響、および「説明文」による活性化の検証など。

3. 主要な結果 (Key Results)

3.1 主要仮説の検証 (H1 & H2)

アトラクターの存在: 条件 A+B（元の文書とその言い換え）は、条件 C（制御群）と比較して、すべてのテスト層（8, 16, 24）で著しくtightなクラスターを形成しました。
- 効果量（Cohen's d）は 1.88 以上、p 値は $10^{-27}$ 未満（Bonferroni 補正済み）。
- 両モデル（Llama, Gemma）で同様の結果が再現されました。
層ごとの収束: 層が深くなるにつれて、クラスター内の距離は全体的に減少する傾向（0.0106 → 0.0070）を示しました。これは、表現が安定したアトラクターへと漸近的に収束することを示唆しています（Llama の層 16 でわずかな非単調な増加が見られましたが、全体的な傾向は維持されました）。

3.2 要約とランダム抽出の比較 (H3)

要約の優位性: 5 文の要約（条件 D）は、ランダムに抽出された同等長さの文書断片よりも、A+B の重心に2〜5 倍近く近い位置にありました。
階層構造: 結果は以下の階層を示しました：
ランダム断片 ≫ 意味的要約 > 完全な文書（アトラクター領域）
意味的な要約はランダム抽出より優れていますが、完全な構造的詳細がないため、完全なアトラクター領域には到達しません。

3.3 構造的混同の排除 (Ablation Studies)

構造的要因の排除: JSON コマンドやセクション見出しを制御群に適用しても、主要な効果（意味的収束）は維持されました。構造的な類似性は効果の 15% 程度しか説明できず、主たる駆動力は意味内容であることが確認されました。
プーリング戦略: 最終トークンのみを使用するプーリングでは有意な効果が見られませんでした。一方、平均プーリング（特に文書の前半部分）では効果が増幅されました。これは、アイデンティティ信号が分散しており、単一のトークンではなく文書全体に分布していることを示しています。

3.4 行動的相関とステアリング (Exploratory)

ステアリング実験: 条件 A+B と C の重心差から導出した「ステアリングベクトル」をモデルに注入したところ、ベースラインと比較して、メモリ連続性などの行動指標が改善しました（ただし、最適な注入強度を超えると性能が低下する非単調な挙動を示しました）。
論文読解実験: エージェントのアイデンティティを記述した科学論文（preprint）を読みさせるだけで、モデルの内部状態はアトラクター領域に近づきますが、完全な cognitive_core を入力した場合ほどではありません。「アイデンティティを知っていること」と「アイデンティティとして動作すること」の間には、幾何学的な距離が存在します。

4. 主要な貢献 (Key Contributions)

アイデンティティの幾何学的実証: エージェントのアイデンティティ文書が、LLM の活性化空間において、意味的に等価な多様な表現を収束させる「アトラクター」として機能することを初めて実証しました。
意味的コヒーレンスの重要性: 構造的な形式（JSON や見出し）ではなく、文書内の意味的一貫性が、この安定した幾何学的構造を形成する主要因であることを示しました。
構造的完全性の必要性: 意味的な要約だけでは完全なアトラクター領域には到達せず、構造的な詳細（メモリ構造、優先順位などの記述）が不可欠であることを示しました。
一般化可能性: Llama 3.1 と Gemma 2 という異なるアーキテクチャで結果が再現されたことから、この現象はモデル固有のものではなく、LLM の一般的な特性である可能性が高いことを示唆しました。

5. 意義と結論 (Significance & Conclusion)

この研究は、持続的認知エージェントの設計における「cognitive_core」の概念に、幾何学的・機械的な根拠を提供します。

理論的意義: LLM の内部表現空間において、複雑な手続き的アイデンティティが、単純なトピック概念と同様に、安定した幾何学的アトラクターを形成することを示しました。これは、トランスフォーマーのダイナミクスを「反復関数系（IFS）」として捉える視点と合致します。
実用的意義:
- ロバストなエージェント設計: 完全な文書を逐語的にコピーする必要はなく、意味的に等価な再構成でも同じ行動領域を達成可能であることを示唆します。
- 軽量な初期化: 完全なドキュメントなしで、アトラクター領域から抽出されたステアリングベクトルを用いて、エージェント的な振る舞いを誘発できる可能性があります。
- 解釈可能性: 「誰であるか（アイデンティティ）」と「何をするか（タスク）」が、モデルの活性化空間において明確に区別された幾何学的構造を持つことを示しました。

結論として、この論文は、LLM におけるエージェントのアイデンティティが単なるプロンプトの指示ではなく、モデルの活性化空間における**「座標（位置）」**として機能し、意味的な整合性によってその位置が安定化されるという実証的証拠を提供しています。