Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI は言葉の『意味』を本当に理解しているのか、それとも単に『文字の並び』を覚えているだけなのか？」**という疑問に答える、とても面白い実験結果を報告しています。

専門用語を使わず、わかりやすい例え話で解説しましょう。

🏰 物語の舞台：セルビアという「二つの顔」を持つ国

まず、実験の舞台となるセルビア語という言語についてお話しします。
セルビア語には、**「ラテン文字（A, B, C...）」と「キリル文字（А, Б, В...）」**という、2 つの全く異なる文字体系があります。

特徴 1： 国民はどちらも使い分け、意味は100% 同じです（例：「猫」はどちらの文字でも「猫」です）。
特徴 2： しかし、AI がこの文字を処理する仕組み（トークナイザー）は、ラテン文字とキリル文字を全く別のものとして扱います。まるで、同じ「リンゴ」を、片方は「赤い果物」と呼び、もう片方は「丸い果物」と呼んで、全く別の単語として登録しているようなものです。

この「意味は同じなのに、AI にとっては全く別の言葉に見える」という状況が、実験にはうってつけの「実験室」になりました。

🔍 実験の道具：SAE（Sparse Autoencoders）という「X 線カメラ」

研究者たちは、AI の頭の中を覗くための**「SAE（スパース・オートエンコーダ）」という道具を使いました。
これを「AI の思考を分解して、どんな『概念』が光っているか見る X 線カメラ」**と想像してください。

AI が何かを考えると、無数の小さな「概念（Feature）」が光ります。
例えば、「犬」という言葉が来ると、「動物」「毛深い」「吠える」といった概念が光ります。
この実験では、「同じ意味の文章」を、ラテン文字とキリル文字の両方で入力したとき、AI の頭の中で光る「概念」が同じになるかを確認しました。

🎭 実験の結果：驚くべき「意味の一致」

もし AI が単に「文字の並び」を暗記しているだけなら、ラテン文字とキリル文字では、全く違う概念が光るはずでした。しかし、結果は違いました。

同じ意味、違う文字でも「同じ光り方」
- 「私は猫が好き」という文章を、ラテン文字で入力しても、キリル文字で入力しても、AI の頭の中でほぼ同じ「概念」が光りました。
- 数字で言うと、約 58% の概念が共通していました（ランダムな文章同士なら 28% しか重なりません）。
- これは、「文字の形（見た目）」よりも「意味（中身）」の方が、AI の頭の中では重要視されていることを示しています。
パラフレーズ（言い換え）よりも「文字の違い」の方が影響が少ない
- 面白いことに、**「同じ文章を違う文字で書くこと」よりも、「同じ文字で言い換えること（パラフレーズ）」**の方が、AI の頭の中の変化（概念のズレ）が大きいことがわかりました。
- つまり、AI は「文字が変わる」ことにはあまり気にしませんが、「言葉の選び方（ニュアンス）」には敏感だということです。
AI が大きくなると、より賢くなる
- 小さな AI（2 億パラメータ）よりも、巨大な AI（270 億パラメータ）の方が、この「文字を越えた意味の理解」が上手でした。
- 巨大な AI は、ラテン文字でもキリル文字でも、**「同じ意味なら同じように理解する」**という能力がさらに高まっていました。

🧩 重要な発見：「丸暗記」ではない

「もしかして、AI は訓練データに『ラテン文字の A 文』と『キリル文字の A 文』がセットで入っていたから、それを丸暗記しただけでは？」という疑問が湧きます。

しかし、研究者は**「ラテン文字の A 文」と「キリル文字の B 文（言い換え）」を混ぜてテストしました。これらは訓練データに一度もセットで現れていない組み合わせですが、それでも AI は「意味が通じる」と判断し、同じ概念を光らせました。
これは、「丸暗記」ではなく、本当に「意味」を抽象的に理解している**という強力な証拠です。

💡 まとめ：AI は「文字の皮」を剥いで「中身」を見ている

この研究が教えてくれることは、とても希望に満ちています。

AI は、文字の形（ラテンかキリルか）に縛られていません。
AI は、言葉の「意味」という核（核となる概念）を、文字の皮を剥いで捉えることができるようになっています。

まるで、**「同じ料理を、器が違っても（ラテンかキリルか）、その美味しさ（意味）を同じように感じ取れる」**ようなものです。

この発見は、世界中の異なる言語や文字体系を持つ人々にとって、AI がより公平に、より深く理解してくれる未来への一歩を示しています。また、AI の「思考」を解明する新しい方法（セルビアの二文字体系を使う方法）も提案されました。

一言で言えば：
「AI は、文字の見た目ではなく、その奥にある『心（意味）』を理解し始めている」という、とても心温まる発見だったのです。

Each language version is independently generated for its own context, not a direct translation.

論文要約：「ONE LANGUAGE, TWO SCRIPTS: PROBING SCRIPT-INVARIANCE IN LLM CONCEPT REPRESENTATIONS」

（1 つの言語、2 つの文字体系：LLM の概念表現における文字体系不変性の検証）

この論文は、大規模言語モデル（LLM）が学習する概念表現（Sparse Autoencoders: SAEs によって抽出された特徴）が、抽象的な意味を捉えているのか、それとも特定の文字体系（Orthography）やトークン化パターンに依存しているのかを検証した研究です。

以下に、問題設定、手法、主要な貢献、結果、および意義について詳細にまとめます。

1. 問題設定 (Problem)

LLM は多様な言語や文字体系を処理しますが、その内部表現が「意味」を抽象的に捉えているのか、単に「入力された文字の並び（トークン）」に依存しているのかは未解明な部分が多いです。
特に、同じ言語であっても異なる文字体系（例：ラテン文字とキリル文字）で書かれた場合、モデルは同じ意味を同じように表現するのでしょうか？
従来の研究では、言語間の意味的類似性を検証する際、語彙の違いや意味の微妙なズレが混入する可能性がありました。本研究は、意味は完全に同一だが、トークン化が全く異なるという理想的な実験環境を構築し、SAE 特徴が文字体系に依存しない（Script-Invariant）かどうかを厳密に検証することを目的としています。

2. 手法 (Methodology)

2.1 実験環境：セルビア語の二文字体系（Digraphia）

本研究の核心は、セルビア語の「二文字体系」を利用した制御実験です。

特徴: セルビア語はラテン文字とキリル文字の両方で書かれ、ネイティブスピーカーは両方を自由に使い分けます。
利点: 両文字体系間には決定論的かつ損失なしの対応関係があり、意味は完全に同一です。しかし、LLM のトークナイザーにとっては、両者のトークン系列は完全に異なり、共通トークンは一つも存在しません。
実験デザイン: 同じ文をラテン文字とキリル文字で入力し、SAE 特徴の活性化パターンを比較します。

2.2 データセット

30 組の「文のトリプレット」を構築しました。
- Original: 自然な文（多様なトピック）。
- Paraphrase: 意味は同じだが語彙や表現が異なる言い換え。
- Random: 意味的に無関係な文。
これらを「英語」「セルビア語（ラテン）」「セルビア語（キリル）」の 3 種類で用意し、合計 270 文を使用しました。
意味的類似性は LaBSE 埋め込みで確認し、トークン数の偏りも制御しました。

2.3 モデルと SAE 設定

モデル: Gemma モデルファミリー（270M 〜 27B パラメータの 5 つのサイズ）。
SAE: Gemma Scope 2（Google DeepMind 提供）。幅 65,536 特徴、JumpReLU 活性化関数を使用。
抽出: 各モデルの 3〜4 層（初期・中期・後期）から、最終トークンの隠れ状態を SAE に通し、閾値（ $\tau=0.1$ ）を超えた特徴の集合 $F(s)$ を抽出しました。

2.4 評価指標

Jaccard 類似度: 2 つの文の活性化特徴集合の重なりを測定。
$J(s_1, s_2) = \frac{|F(s_1) \cap F(s_2)|}{|F(s_1) \cup F(s_2)|}$
比較パターン:
1. Cross-Script Original: 同一文のラテン vs キリル（主たる検証）。
2. Cross-Script Paraphrase: 同一の言い換え文のラテン vs キリル。
3. Cross-Script Cross-Paraphrase: ラテンの原文 vs キリルの言い換え文（訓練データで同時出現しない組み合わせ）。
4. Random Baselines: 無関係な文同士の比較。

3. 主要な貢献 (Key Contributions)

セルビア語二文字体系の導入: 意味を固定しつつ文字体系のみを変化させる、概念表現の抽象度を評価するための新しい制御実験パラダイムを提案しました。
文字体系不変性の実証: Gemma モデルにおいて、異なる文字体系で書かれた同一文が、ランダムなベースラインを大幅に上回る高い特徴類似性を示すことを発見しました。
- 平均 Jaccard 類似度：同一文（クロススクリプト）で 0.58、ランダムベースラインで 0.28。
- 興味深いことに、同じ文字体系内での「言い換え（Paraphrase）」よりも、異なる文字体系での「同一文」の方が、特徴の類似度が高い（または同等）という結果が得られました。
モデルスケールとの関係性の解明: モデルのサイズが大きくなるほど、文字体系に依存しない表現の頑健性（Robustness）が増すことを示しました。

4. 結果 (Results)

4.1 意味的表現の文字体系不変性

高い類似性: ラテン文字とキリル文字の同一文間での Jaccard 類似度は約 0.58 でした。これは、無関係な文同士のクロススクリプト比較（0.28）や、英語とセルビア語の無関係比較（0.19）を大きく上回ります。
意味の優先: 結果の順序は「クロススクリプト同一文 > クロススクリプト言い換え > クロススクリプト無関係」となり、SAE 特徴は文字の見た目（Orthography）よりも意味（Meaning）を優先して表現していることを示唆しています。
暗記の否定: 「クロススクリプト・クロス・パラフレーズ」（ラテンの原文とキリルの言い換え文の組み合わせ）は、訓練データで同時に出現する可能性が極めて低いですが、それでも高い類似度（0.47）を示しました。これは、モデルが単に訓練データを暗記しているのではなく、抽象的な意味構造を学習している証拠です。

4.2 モデルスケールの影響

スケールによる強化: モデルサイズが 270M から 27B へ増大するにつれ、クロススクリプト同一文の類似度は 0.50 → 0.65 へと上昇しました。
ノイズの低減: 同時に、無関係な文同士の類似度（ベースライン）は低下し、意味的に近い文と遠い文の区別がより明確になりました。
一貫性: 27B モデルでは、英語、セルビア語（ラテン）、セルビア語（キリル）のすべてで、意味的区別のギャップがほぼ同一のレベルに収束しました。

5. 意義と結論 (Significance & Conclusion)

意味の抽象化: SAE によって抽出された特徴は、表面レベルのトークン化を超えた、より高次な抽象的な意味レベルで概念を捉えていることが示されました。
解釈可能性への示唆: 異なる文字体系や言語間でも、同じ意味が同じ特徴として表現されることは、LLM の内部表現が人間に解釈可能な「普遍的な概念」を含んでいる可能性を強く示唆しています。
将来の展望: セルビア語の二文字体系は、文字体系不変性や直感的な意味表現を研究するための理想的なベンチマークとなります。今後の研究では、より多様な言語やモデルアーキテクチャへの一般化、および因果関係の検証（活性化パッチング等）が期待されます。

結論:
本研究は、LLM が学習する概念表現が、入力形式（文字体系）に依存せず、抽象的な意味構造を捉えていることを実証しました。特に、モデルが巨大化するにつれてこの「文字体系不変性」が強化されるという発見は、多言語・多文字環境における LLM の理解メカニズムを解明する上で重要な知見です。

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations