Represented Is Not Computed: A Causal Test of Candidate Algorithmic… — やさしい解説

原著者： Ishita Darade, Sushrut Thorat

公開日 2026-05-22✓ Author reviewed ⓘ

📖 1 分で読めます☕ さくっと読める

原著者： Ishita Darade, Sushrut Thorat

原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 ✨ これは以下の論文のAI生成解説です。著者が執筆したものではありません。技術的な正確性については原論文を参照してください。免責事項の全文を読む

非常に賢いけれど謎めいたロボット料理人を想像してください。あなたはそのロボットに、3 つの材料が書かれたレシピカードを渡します。それは「大きな数（ $N$ ）」「基数（ $B$ ）」、そして特定の「スロット番号（ $D$ ）」です。料理人の仕事は、その大きな数を「基数」の言語に変換した後に、特定の桁の数字を特定することです。

例えば、大きな数が 255 で、基数が 16 で、0 番目のスロットを尋ねた場合、料理人は答えを導き出すためにいくつかの数学的計算を行う必要があります。

この論文の研究者たちは、ロボットがどのようにこのパズルを解くのか、その「脳」をのぞき見ようとしていました。彼らはロボットが「どのように」考えるべきかについて非常に具体的な仮説を持っており、それが実際に起こっているかどうかを確認したかったのです。

以下に、彼らが発見したことを簡単なステップに分解して物語形式で示します。

1. 料理人はこのタスクの天才です

まず、ロボットが実際に仕事ができるかどうかを確認しました。彼らは何千もの例題でロボットを訓練し、その後、新しい未見の数値でテストを行いました。

結果: ロボットはほぼ完璧（99.83% の精度）でした。何を答えればよいかを正確に知っていました。つまり、ロボットは問題を解く「ことができる」ことがわかりました。

2. 「設計図」理論（私たちが起こっていると思っていたこと）

この数学的問題には、明確なステップバイステップの解決策（設計図のようなもの）があります。答えを得るためには、理論的には以下の手順が必要です。

補助となる数値（ $B^D$ ）を計算する。
大きな数をその補助数値で割る。
切り捨てを行う。
余りを取る。

研究者たちは、ロボットがこの設計図に従っているだろうと考えていました。彼らは「線形プローブ（Linear Probe）」というツール（金属探知機のようなものと考えてください）を使って、ロボットの脳をスキャンしました。

発見: 金属探知機がブザーを鳴らしました！ロボットの脳には、まさにこれらの数値が含まれていることがわかりました。「補助数値」と「切り捨てられた数値」は、ロボットの内部思考に明確に現れていました。
罠: これらの数値が見つかったため、彼らはロボットが問題を解くためにそれらを使用していると仮定しました。ロボットが設計図を完璧に追っているように見えたのです。

3. 現実確認（因果関係テスト）

ここで、この論文は面白さを増します。ロボットが脳内にその数値を「持っている」からといって、決定を下すためにそれらを「使用している」わけではないからです。

ロボットが実際に何を使用していたのかを突き止めるため、研究者たちはロボットの脳に対して 2 つの方法を用いて「手術」を行いました。

方法 A: ミュートボタン（アブレーション）
彼らは、最終的な答えへと「補助数値」を渡すはずだった脳の特定部分を「ミュート」しようと試みました。
- 結果: 驚いたことに、複雑な数学を保持する部分をミュートしても、ロボットにはほとんど影響がありませんでした。しかし、ロボットが「スロット番号（ $D$ ）」を見た「最初の部分」をミュートすると、ロボットは即座に答え方を忘れました。複雑な数学が存在しようがなかろうが、ロボットはそれを無視しました。
方法 B: 交換（パッチング）
彼らは、異なる「スロット番号（ $D$ ）」を持つが、同じ大きな数と基数を持つ「ドナー」ロボットを用意しました。そして、ドナーからの脳信号を元のロボットに交換しました。
- 結果: 元のロボットは突然、ドナーの答えを出すようになりました。しかし、これは「スロット番号（ $D$ ）」が異なる場合に限られました。もし大きな数（ $N$ ）や基数（ $B$ ）を交換しても、ロボットは気にしませんでした。
- 結論: ロボットは答えを決定するために複雑な数学（設計図）を使用していたわけではありませんでした。それは直接「スロット番号（ $D$ ）」にのみ反応していたのです。

4. 「隠された経路」の発見

最後に、彼らは情報が実際に取った経路をマッピングしました。

彼らが期待したもの: $N$ 、 $B$ 、 $D$ がすべて出会い、複雑な数学式に混ぜ合わされ、その後答えを生み出す、単一の整理されたハイウェイ。
彼らが発見したもの: ロボットには 3 つの分離した小さな道があります。一つは大きな数を運び、一つは基数を運び、一つはスロット番号を運びます。これらの道は、ほぼ全旅程にわたって分離したままです。それらが合流するのは、答えが書き込まれる直前の最後の瞬間だけです。ロボットは複雑な「補助数値」を構築してそれらを渡すのではなく、最後の瞬間まで材料を分離したまま保持していたのです。

大きな教訓：「表現されている」ことは「計算されている」ことではない

この論文の主要なタイトルがすべてを物語っています：「Represented Is Not Computed（表現されていることは計算されていることではない）」。

表現されている（Represented）: ロボットの脳には複雑な数学の数値が「含まれて」いました。脳を見れば、それらは明確に見えました（バックパックの中に地図が見つかるようなものです）。
計算されている（Computed）: ロボットは車を運転するためにそれらの数値を「使用して」いませんでした。それは近道を取っていたのです。

比喩:
パーティーへ向かう車を運転していると想像してください。あなたはグローブボックスに、すべての曲がり角、信号、近道を示す詳細な手書きの地図（「表現された」数学）を持っています。

プローブ: あなたはグローブボックスを見て、「ああ！あなたは地図を持っている！あなたは地図を使って運転しているに違いない！」と言います。
現実: あなたは実際にはルートだけを暗記しており、直感で運転していました。地図を取り除いても、あなたは目的地にたどり着きます。誰か他の人の地図と交換しても、あなたは気にしません。なぜなら、あなたはそれを見ていないからです。

まとめ:
ロボットは数学の問題を完璧に解き、あたかもルールに従っているかのように数学的ステップを「考えて」さえいました。しかし、ロボットが実際に答えを出す原因となったものをテストしたところ、彼らはロボットが複雑なステップを無視し、尋ねられた特定の「スロット」に直接反応しているだけであることを発見しました。

この論文は私たちに警告します：ニューラルネットワーク内部に情報の断片を「見つける」ことができるからといって、そのネットワークが実際に意思決定のためにその情報を使用しているわけではないのです。中身を見るだけでなく、原因をテストする必要があります。

技術的サマリー：表現されていることは計算されていない

問題定義
機械的解釈可能性は、ニューラルネットワークが構造化されたプロンプトを解決するために、タスクに関連するコンポーネントをどのように統合するかを理解することを目指しています。自然言語や視覚において、この統合に必要な内部関係は、候補となる内部アルゴリズムを定義するに足るほど正確に指定されることはめったにありません。本論文は、入力 - 出力関数が既知であり、候補アルゴリズムを明示的に定義できるより明確な設定として、算術、特に基数桁抽出を利用することで、このギャップに対処します。このタスクは、10 進数 $N$ 、基数 $B$ 、および桁位置 $D$ を受け取り、 $N$ の $B$ 進展開における $B^D$ の係数を予測するトランスフォーマーを含みます。閉形式の解は $y = \lfloor N/B^D \rfloor \mod B$ です。

中心的な問いは、モデルが、この閉形式の解が示唆する「段階的」なアルゴリズム的仮説を実装しているかどうかです。すなわち、 $B^D$ を計算し、次に $N/B^D$ を計算し、床関数を適用し、最後に $B$ で割った剰余を計算するというプロセスです。具体的には、著者は解釈可能性においてしばしば混同される 3 つの異なる問いを検証します。(1) モデルはタスクを解決できるか？(2) 閉形式の解から得られる量はネットワーク内で表現されているか？(3) それらの量は答えを生成するために使用される因果的な中間量か？

手法
著者は、3 つの異なるランダムシードを使用して、基数桁抽出タスクに対してゼロから 10 層のデコーダ専用トランスフォーマーを訓練しました。訓練データには $N \in \{0, \dots, 999\}$ 、 $B \in \{2, \dots, 30\}$ 、およびさまざまな桁位置 $D$ が含まれていました。モデルは、記憶ではなく堅牢な一般化を確保するために、保持された数と基数の交差点に対して自己回帰的に評価されました。

内部メカニズムを分析するために、本研究は多段階のアプローチを採用しました：

線形プロービング： 閉形式の量（ $B^D$ 、 $N/B^D$ 、 $\lfloor N/B^D \rfloor$ 、および最終的な答え）が、さまざまな層の残差ストリームから線形に復号可能かどうかをテストするために、固定された活性化に対して線形読み出しを訓練しました。
アテンションアブレーション： 著者は、 $D$ トークンストリーム（ $D_{ones}$ ）から出力ストリーム（ $O[0]$ および $O[1]$ ）へのアテンション経路に対して標的としたアブレーションを実行しました。特定の層からのアテンションをマスクした際の性能低下（浅い層から深い層へ、および深い層から浅い層への走査の両方）を測定し、因果的な依存関係を特定しました。
活性化パッチング： 因果的な経路が何を運んでいるかを決定するために、著者はキー/値のパッチングを実行しました。彼らは、「ドナー」例からの $D_{ones}$ キー/値ベクトルを「ソース」例に置換しました。ドナーがソースと $N$ 、 $B$ 、または $D$ のいずれで異なるかを変化させることで、その経路が桁位置に固有の情報か、それともより広範な算術中間量に関する情報を運んでいるかをテストしました。
スパース回路探索： タスクの性能に十分な最小限のアテンション経路のセットを特定するために、右から左への貪欲な探索を実施し、モデル全体のルーティング構造を明らかにしました。

主要な結果

タスク能力： モデルは保持されたテストセットでほぼ完璧な性能を達成し、3 つのシード全体で平均正確回答率が**99.83%**でした。これにより、モデルがタスクマッピングを確実に学習したことが確立されました。
表現（プロービング）： 閉形式の量は残差ストリームから強く線形に復号可能でした。具体的には、 $B^D$ と商に似た量（ $N/B^D$ ）は $D_{ones}$ ストリームからアクセス可能であり、最終的な答えの量は出力ストリームから復号可能でした。これにより、段階的アルゴリズム的仮説が表現論的に妥当であることが示されました。注目すべきは、この復号可能性の一部は初期化時点でも存在しており、それは純粋に学習された計算というよりは、アーキテクチャとデータの幾何学によるアーティファクトの側面があることを示唆しています。
因果的利用（アブレーションおよびパッチング）： 段階的中間量の強い表現にもかかわらず、因果的テストは異なるメカニズムを明らかにしました。
- 初期の感度： 出力の挙動は、初期の $D_{ones} \to O$ 通信（具体的には層 0–1）に対して最も敏感でした。これらの初期層をマスクすると性能が劇的に低下しましたが、後続の層をマスクしても影響は最小限でした。
- 選択的な情報転送： パッチング実験により、 $D_{ones} \to O$ 経路は、 $D$ に対して非常に選択的な行動上有効な情報を運んでいることが示されました。ドナーが $N$ または $B$ だけで異なっていた場合、パッチングされたモデルの出力は変化せず（ソースに一致）、ドナーが $D$ だけで異なっていた場合、出力はドナーに一致するように反転しました。
- 因数分解されたルーティング： スパース回路探索により、 $N$ 、 $B$ 、 $D$ は主に分離された局所スキャフォールドを介してルーティングされ、出力ストリームで後期に収束することが明らかになりました。プロンプト側から出力へ単一の統合された閉形式の中間量が伝達されているという証拠はありませんでした。

主要な貢献と主張
本論文の主な貢献は、分離的な観察です。モデルは段階的アルゴリズム的解を妥当にする量を表現しています（それらは線形に復号可能ですが）、特定された因果的経路はこれらの量を出力へ伝達していません。

著者は**「表現されていることは計算されていない」**と主張します。この文脈における「計算されている」とは、答えを形成するために実際に使用される因果的中間量を指します。本研究は以下のことを実証しています：

プローブは因果的現実から乖離し得る： 線形プローブはアルゴリズム的中間量の存在を特定しましたが、因果的介入（アブレーションおよびパッチング）は、これらの中間量が出力の主要な駆動力ではないことを証明しました。
復号可能性 $\neq$ 因果的利用： 量の高い復号可能性は、それが学習された因果的中間量であることを保証しません。それは、アーキテクチャまたはトークン化によって提供されるアクセス可能性を反映しており、これは訓練によって後から彫刻されますが、出力への特定の因果的経路では利用されていない可能性があります。
基数桁抽出のメカニズム： モデルは、 $N$ 、 $B$ 、 $D$ を分離された経路を介してルーティングし、それらを後期に統合することでタスクを解決します。これは、商に似た値の段階的伝達ではなく、初期の $D$ 選択的通信に依存しています。

重要性
本論文は、機械的解釈のために線形プローブのみに依存することに対する直接的で検証可能な警告として機能します。明示的で既知のアルゴリズムとほぼ完璧なタスク性能を持つ設定であっても、内部の因果的メカニズムは直感的なアルゴリズム的仮説と大きく異なる可能性があります。著者は、機械的説明には、量が存在するだけでなく、それらがどのように因果的に使用されるかを証明する必要があると主張します。この研究は、クリーンなアルゴリズム的中間量が明確に表現可能であるが因果的に利用されていないタスクにおいて、ヒューリスティックまたは非アルゴリズム的経路がタスクを解決し得ることを示すことで、トランスフォーマー回路および算術メカニズムに関する既存の研究を補完しています。

Represented Is Not Computed: A Causal Test of Candidate Algorithmic Intermediates in a Transformer