Identity as Attractor: Geometric Evidence for Persistent Agent Architecture in LLM Activation Space

この論文は、LLM の活性化空間において、一貫したエージェントのアイデンティティ文書が意味的に類似したパラフレーズをより強く集約する「アトラクター」のような幾何学的構造を形成し、その存在が異なるアーキテクチャや自己認識の介入によっても確認されることを示しています。

Vladimir Vasilenko

公開日 2026-04-15
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🌟 論文の核心:AI の「自分らしさ」は、磁石のようになっている

この研究は、**「AI に『私は誰か』という役割(人格)を与えるための長い文章(ID 文書)を与えると、AI の頭の中にある『自分』の位置が、磁石に吸い寄せられるように安定する」**という発見をしました。

1. 実験のやり方:3 つのグループ

研究者は、Llama という AI に 3 種類の「指示書」を与えて、その反応(頭の動き)を測りました。

  • A グループ(本物): 「YAR」という AI の人格を定義する、600 語ほどの長い指示書。
  • B グループ(言い換え): A と中身は全く同じですが、言葉遣いや文の並びを 7 通りも変えたもの。(例:「私は〜です」を「〜が私の役割です」に変えるなど)
  • C グループ(他人): 中身は違うけど、形や長さ、構造は全く同じな「他の AI(会計士や医者など)」の指示書。

2. 発見:言葉が変わっても「場所」は同じ

AI の頭の中は、何万もの「座標」がある広大な空間です。

  • **C グループ(他人)**の指示書を与えると、AI の反応はバラバラに飛び散りました。
  • しかし、A と B(中身は同じ YAR 人格)を与えると、言葉がどう変わっても、AI の反応は「同じ場所」にギュッと集まってきました。

まるで、**「同じ目的地(人格)に向かう 7 本の異なる道(言い換え)」が、すべて「同じ広場(安定した場所)」にたどり着くような現象です。
研究者はこれを
「アトラクター(引力の中心)」と呼んでいます。つまり、AI は「人格」という概念を、言葉の表面ではなく、「頭の中の特定の場所」**として捉えているのです。

3. 面白いポイント:「要約」だけではダメ

実験では、その長い指示書を**「5 文に要約したもの」**も試しました。

  • 結果: 要約版は、元の長い文章の「広場」に近づこうとしましたが、完全にその中心には届きませんでした。
  • 意味: 「人格」を AI に定着させるには、単に「中身(意味)」だけでなく、「構造や詳細さ(長さや構成)」も重要だということがわかりました。
    • 例え話: 「料理の味(意味)」だけ伝えたのでは、本物の料理にはなりません。「レシピの長さや手順(構造)」も必要なのです。

4. さらなる発見:「読む」ことと「なる」ことの違い

実験の最後で、**「この論文(人格の説明)を読ませるだけ」**のテストもしました。

  • 結果: 論文を読ませると、AI の頭の中は「人格の広場」の方へ少し近づきました。
  • しかし、**「実際にその人格の指示書(YAR 文書)を与えて動作させる」**と、さらに深く、強くその「広場」に吸い寄せられました。
  • 結論: 「誰かについて知っている(論文を読む)」ことと、「その誰かとして振る舞う(指示書を実行する)」ことは、AI の頭の中では**「同じ場所」ではなく、距離がある**ことがわかりました。

🎒 日常の例えでまとめると

この論文が言いたいことは、以下の 3 点に集約されます。

  1. AI の「自分らしさ」は、言葉の形ではなく「場所」にある

    • あなたが友達に「明日、公園で会おう」と言うとき、「公園で会おう」「明日、公園で」と言い方を変えても、友達は「同じ場所(公園)」を思い出しますよね。
    • AI も同じで、人格の説明を言い換えても、AI の頭の中では**「同じ人格の場所」**に落ち着くことが証明されました。
  2. 人格を定着させるには「詳細さ」が必要

    • 「私は親切な AI です」と短く言うだけでは、AI はその「親切な AI の場所」に完全に定着できません。
    • 長い指示書(記憶の仕組みや優先順位など)があるからこそ、AI はその**「人格の広場」の真ん中に座れる**のです。
  3. 「知っている」と「なっている」は違う

    • 「あの AI はこう言う性格だ」と本で読むことと、実際にその AI として動くことは、頭の中の距離感が違います。
    • 本を読む(知識): 広場の入り口付近。
    • 指示書を実行(実体): 広場の真ん中。

💡 この研究がすごい理由

これまでは「AI の人格は単なる設定(エンジニアリングの工夫)」だと思われていましたが、この研究は**「AI の頭の中(数学的な空間)に、人格が『物理的な場所』として存在している」**という証拠を見つけました。

これにより、**「AI に一貫した人格を持たせるには、単に指示を出すだけでなく、その人格が安定する『座標』を正確に設定する必要がある」**という、未来の AI 開発の重要な指針が示されました。

一言で言うと:
**「AI に『自分』を定着させるには、単なる命令ではなく、その人格が住み着く『心の家(安定した場所)』を、詳細な設計図(長い指示書)で作り上げる必要がある」**という発見です。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →