原著者： Santiago Acevedo, Alessandro Laio, Marco Baroni

公開日 2026-05-28

📖 1 分で読めます☕ さくっと読める

原著者： Santiago Acevedo, Alessandro Laio, Marco Baroni

原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 ✨ これは以下の論文のAI生成解説です。著者が執筆または承認したものではありません。技術的な正確性については原論文を参照してください。免責事項の全文を読む

DeepSeek-V3 のような大規模言語モデル（LLM）を、巨大な多階建ての図書館だと想像してみてください。この図書館の中を、あなたが入力するすべての文章は、建物の異なる階（層）を移動するにつれて、それぞれ固有の多次元「指紋」（ベクトル）へと変換されます。

この論文が問いかける大きな疑問は、**「この図書館はこれらの指紋をどのように整理しているのか？」**というものです。具体的には、文章の「構造」（構文）と文章の「意味」（意味論）を別々に保持しているのでしょうか、それともすべてが大きなスムージーのように混ざり合っているのでしょうか。

以下に、研究者たちが発見したことをシンプルに説明します。

1. 「平均化」のトリック（核心を見つける）

研究者たちは、文法的に同じような構造を持つ一連の文章（例：「猫が座った」「犬が走った」「鳥が飛んだ」）には、共通の「骨格」が存在することに気づきました。

アナロジー： 100 人の異なる人々が全く同じ種類の帽子を被っている写真を想像してください。それらの写真をすべて平均化すると、顔はぼやけてしまいますが、帽子は非常に鮮明で明確になります。
手法： 彼らはこれを数学的に行いました。同じ文法構造を持つ文章の指紋を平均化して「構文重心（純粋な文法の帽子）」を作成し、同じ意味を持つが異なる言葉で書かれた文章についても同様に処理して「意味重心（純粋な意味の帽子）」を作成しました。

2. 「引き算」テスト（帽子を取り除く）

これらの「純粋な」文法ベクトルと意味ベクトルを入手した後、研究者たちはそれらを元の文章の指紋から取り除く試みを行いました。

アナロジー： 帽子を被った人の写真を持っていると想像してください。その写真からデジタル的に「帽子」ベクトルを差し引くと、帽子は消えます。もし写真がまだその人のように見えるなら、帽子は別々のレイヤーであったことがわかります。もし人の顔も消えてしまうなら、帽子と顔は混ざり合っていたことになります。
結果： 「文法の帽子」を文章から差し引くと、その文章は同じ文法を持つ他の文章と一致する能力を失いました。「意味の帽子」を差し引くと、同じ意味を持つ他の文章と一致する能力を失いました。
結論： これは、モデルが文法と意味を線形的に符号化していることを証明します。これらは化学反応のように新しい物質へと変化してしまうのではなく、数学的に分離可能なレシピの異なる材料のようなものです。

3. 「間取り図」の発見（物事が存在する場所）

この図書館には多くの階があります。研究者たちは、文法と意味が異なる階に住んでいることを発見しました。

文法（構文）： これは基礎と下層の階のようなものです。最初から存在し、最上階まで一貫して維持されます。モデルは文章の構造をほぼ即座に理解します。
意味（意味論）： これは中間の階のようなものです。文章が図書館に入ると、モデルはまず単語と構造（下層の階）を調べます。その後、文章が中間の階へと進むにつれて、モデルはその文章が実際に何を意味しているかを理解します。最上階（モデルが回答を生成する場所）に到達する頃には、意味は依然として存在しますが、焦点は出力の生成へと移ります。
アナロジー： 本を読むことを考えてみてください。まず、文字や単語を認識します（文法）。その後、段落の途中で、物語を理解します（意味）。物語を理解するために文字を再認識する必要はありませんが、始めるためには文字が必要です。

4. 一方通行の通り（非対称性）

ここが最も興味深い部分です：分離は完全に均等ではありません。

文法は独立している： 文章から「意味」を取り除いても、「文法」は完全に intact（無傷）のまま残ります。肉を取り除いても、骨格は立ち続けます。
意味は依存している： 文章から「文法」を取り除くと、「意味」は少しぐらつきます。完全に消えるわけではありませんが、認識しにくくなります。
アナロジー： 家を想像してください。家具（意味）を取り除いても、家の構造（文法）は明らかに家として残ります。しかし、壁や屋根（文法）を取り除くと、家具（意味）は単に地面に積み上げられた物の山に過ぎません；それが何であったのかを判断するのは困難です。

まとめ

この論文は、これらの巨大な AI モデルにおいて以下のことが示されています：

文法と意味は区別される： 絶望的に混ざり合っているのではなく、別々に符号化されています。
それらは線形的である： 一方から他方を数学的に「差し引く」ことができます。
それらは異なる場所に存在する： 文法は至る所に存在します（特に初期段階で）、一方、意味はモデルの処理の中間でピークに達します。
文法は頑丈な基礎である： 意味を取り除いても文法は壊れませんが、文法を取り除くと意味を保持することが難しくなります。

これは、これらのモデルが次の単語を予測することのみで訓練されているにもかかわらず、言語学者が言語がどのように機能すると考えるのによく似た構造、すなわち意味の層を支える構造的枠組みを、自然に発達させていることを示唆しています。

技術的概要：LLM における構文と意味の差別的符号化

問題提起

本研究は、大規模言語モデル（LLM）が、高次元の内部表現のどこに、どのように構文（構造）情報と意味（内容）情報を符号化しているかを調査するものである。LLM の成功は、言語能力がどこに、どのように格納されているかを解読する関心を高めたが、構文と意味の関係については依然として重大な対立が存在する。生成主義的伝統は、しばしば構文の厳密な自律性を仮定するのに対し、機能主義的アプローチは、これらが深く絡み合っていると見なす。本論文は、これら二つのコンポーネントが線形的に符号化されているかどうか、ネットワーク層全体にどのように分布しているか、そして明示的な言語的事前知識なしに訓練されたモデルにおいて、これらがどの程度分離可能かを決定することで、この対立を解決することを目的としている。

手法

著者らは、DeepSeek-V3 モデル（6710 億パラメータ）の表現をプローブするために、線形演算に基づく幾何学的アプローチを採用し、小規模モデル（Qwen2-7b、Gemma3-12b、Pythia-6.9b）において定性的な複製検証を行った。

1. データセット構築

本研究は、他の LLM（Gemini、ChatGPT、DeepSeek）を用いて生成された一致する文のペアに依存している：

構文一致： 同じ品詞（POS）テンプレートを共有するが、無関係な意味を表す文のペア（「構文の双子」）。
意味一致： 元の文とその英語の言い換えからなる文のペア、ならびに元の文を 6 言語（アラビア語、中国語、ドイツ語、イタリア語、スペイン語、トルコ語）に翻訳した文のペア。

2. 重心の構築とアブレーション

特定の情報タイプを分離するために、著者らは隠れ表現を平均化して「重心」を構築する：

構文重心（ $S_i$ ）： 特定の POS テンプレートを共有するすべての「構文の双子」の表現の平均。これは構文構造を保持しつつ、意味的なばらつきを平均化する。
意味重心（ $T_i$ ）： 文 $X_i$ のすべての翻訳（元の文とその英語の言い換えを除く）の表現の平均。これは意味内容を保持しつつ、構文的および語彙的なばらつきを平均化する。

アブレーション手順： 著者らは、それぞれの重心への射影を引くことで、文ベクトル $X_i$ から特定情報を除去する。

構文アブレーション： $X_i \perp S_i = X_i - \frac{X_i \cdot S_i}{|S_i|^2} S_i$
意味アブレーション： $X_i \perp T_i = X_i - \frac{X_i \cdot T_i}{|T_i|^2} T_i$

3. 類似度測定

著者らは、高次元において弱いシグナルしか提供しない中心カーネルアライメント（CKA）などの線形指標の代わりに、情報不均衡に由来するランクベースの類似度測定を採用する。この指標は、ある表現空間における最近傍が、別の空間における最近傍をどの程度よく予測するかを定量化する。

4. 表現の集約

トークンレベルの隠れ状態を文レベルのベクトルに集約するために、2 つの方法が用いられる：

連結： 最後の $N$ トークンを連結する（位置情報を保持）。
平均化： 最後の $N$ トークンの表現を平均化する（位置情報を除去）。

主要な結果

1. 構文と意味の線形符号化

本研究は、構文と意味の両方が少なくとも部分的に線形的に符号化されていることを発見した。文ベクトルから構文または意味の重心を引くことは、それぞれ一致するペア（構文の双子または言い換え）間の類似度を著しく低下させる。これは、関連する情報の相当な割合がこれらの線形方向によって捕捉されていることを示唆する。

2. 差別的な層プロファイル

構文と意味の層間符号化プロファイルは異なる：

構文： 構文的類似度は初期層で高く、ネットワーク全体を通じて比較的一定に保たれる。これは連結表現においてより顕著であり、位置情報への依存を示唆する。
意味： 意味的類似度は初期層で低く、中央層でピークに達し、最終出力層でわずかに減少する。意味的類似度は平均化表現においてより強い。

3. 非対称な分離

重要な発見は、構文と意味が互いに影響を与える非対称性である：

意味の除去： 構文の双子から意味重心をアブレーションしても、その構文的類似度は有意に減少しない。意味情報が除去されても構文は頑健である。
構文の除去： 言い換えから構文重心をアブレーションすると、特に中央層において、その意味的類似度が有意に減少する。
解釈： これは、意味を構文から部分的に分離できる一方で、構文はより自律的であることを示唆する。構文構造（例：語順）を除去すると意味を回復する能力が低下するが、意味を除去しても構文の骨格は破壊されない。

4. ノルム分解

文ベクトルの二乗ノルムを分解すると、以下のことが明らかになる：

構文成分は初期層で支配的である。
意味成分は中央層で支配的である。
これらの重心は、ベクトルノルムの相当な部分（中央層で約 40%）を説明するが、完全ではない。残りの大部分は「残差」成分として残る。

5. 下流プローブへの影響

アブレーション手法は、期待通りに下流のプローブタスクに影響を与える：

品詞分類： 構文重心のアブレーションは精度を劇的に低下させるが、意味重心のアブレーションは最小限の影響しか与えない。
言い換えの想起： 意味重心のアブレーションは想起率を劇的に低下させるが、構文重心のアブレーションは（存在するが）より小さな負の影響を与える。

意義と主張

本論文は、LLM の解釈可能性と計算言語学の分野に対して、3 つの主要な貢献を主張する：

意味コアの特定： 結果は、LLM 処理において「意味コア」が存在し、それがネットワークの内部層に集中しており、より安定した層全体にわたる構文処理とは区別されることを確認する。
線形重ね合わせの証拠： 本研究は、単純な線形重ね合わせが、深層ネットワークにおける抽象的な言語的特徴（構文と意味）の符号化のための基本的なメカニズムであるというさらなる証拠を提供する。
構文の創発的自律性： 明示的な言語的事前知識なしに訓練されたモデルにおいて、構文と意味の間に不完全だが明確な分離が観察されることは、構文の自律性が言語表現の固有の最適特性である可能性を示唆する。この発見は、生成言語理論（自律的構文）と機能主義的見解の間のギャップを埋め、この区別が人間の脳から LLM まで、認知システムにおいて普遍的に創発する可能性を示唆する。

著者らは謙虚な立場を維持し、彼らの線形アプローチはこれらの複雑な特徴の側面のみを捉えており、表現ノルムの相当な部分がこれらの重心によって説明されていないことを認めている。彼らは、今後の研究は非線形特徴抽出とこれらの符号化の時間的ダイナミクスを探るべきであると提案している。

Differential syntactic and semantic encoding in LLMs