Sparse autoencoders reveal organized biological knowledge but minimal regulatory logic in single-cell foundation models: a comparative atlas of Geneformer and scGPT

⚕️

これは査読を受けていないプレプリントのAI生成解説です。医学的助言ではありません。この内容に基づいて健康上の判断をしないでください。免責事項の全文を読む

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI が細胞の仕組みをどこまで『理解』しているのか？」**という興味深い問いに答えた研究です。

具体的には、遺伝子の情報を学習した最新の AI（Geneformer と scGPT という 2 つのモデル）の中身を、新しい技術を使って詳しく調べました。その結果、**「AI は生物の知識を非常に巧みに整理して持っていますが、しかし『なぜそうなるか』という因果関係（ルール）はほとんど理解していない」**という驚くべき発見がありました。

この難しい研究を、わかりやすい例え話で説明します。

1. 研究の舞台：AI の「脳」の中を覗く

まず、Geneformer や scGPT という AI は、数百万の細胞データを見て学習しています。これらは「ファウンデーションモデル」と呼ばれ、細胞の種類を分類したり、薬の反応を予測したりするすごい能力を持っています。

しかし、AI が内部でどうやって考えているかは「ブラックボックス（箱の中が見えない状態）」でした。
そこで研究者は、**「疎性オートエンコーダ（SAE）」**という新しい「X 線カメラ」を使いました。

アナロジー：
AI の内部は、1,000 個の部屋（次元）しかないのに、10 万個以上の「生物学的な概念（遺伝子の働きなど）」を詰め込もうとしています。これを**「超密着したアパート」だと想像してください。
通常の方法（SVD など）で見ると、部屋はごちゃごちゃで何が入っているか見えません（これを「重なり（Superposition）」と呼びます）。
しかし、この新しい「X 線カメラ（SAE）」を使うと、ごちゃごちゃの部屋から、「免疫細胞の部屋」「DNA の修復部屋」「細胞分裂の部屋」**といった、個々の「概念」がはっきりと浮かび上がってくるのです。

2. 発見その 1：AI は「知識の整理」が得意

この X 線カメラで AI の中を覗くと、驚くべきことがわかりました。

99.8% の知識は隠れていた：
従来の方法では見えていなかった「生物学的な概念」が、なんと 8 万 2 千以上も隠れていました。
** organized（整理された）知識：**
AI は、単に遺伝子が一緒に動くこと（相関）を覚えているだけでなく、**「細胞分裂のグループ」「免疫のグループ」**のように、生物学的な意味でまとまった「部屋（モジュール）」を作っていました。
- 例え：
  AI は、辞書で「猫」と「犬」を別々に覚えているだけでなく、「ペットショップの棚」や「動物病院の診察台」といった、生物学的な文脈で整理された棚を作っているのです。

3. 発見その 2（ここが重要！）：AI は「ルール」を知らない

では、AI は「なぜその遺伝子が動くのか」という**「因果関係（ルール）」**を理解しているのでしょうか？

ここで、**「CRISPRi（遺伝子を意図的に止める実験）」**というテストを行いました。
「この遺伝子（転写因子）を止めたから、あそこの遺伝子も止まるはずだ」という生物学的なルールを AI に当てはめてみました。

結果：
AI は「あ、細胞の状態が変わった！」と気づきました（92% の確率で反応しました）。
しかし、「どの遺伝子が、誰の命令で止まったのか」という具体的なルールは、6.2% しか当てていませんでした。
- 例え：
  AI は「『火事だ！』と叫んでいる」ことはわかります（細胞の状態変化の検知）。
  しかし、「誰が（どの転写因子が）消火器を持って、どの部屋（どの遺伝子）を消したのか」という「犯人と手口」までは理解していません。
  単に「火事だから、みんなが慌てて走っている（相関関係）」という**「現象」は見ていますが、「原因と結果のメカニズム」は持っていない**のです。

4. なぜそうなのか？（ボトルネックは AI 自身）

「もしかして、AI に学習させたデータ（K562 という特定の細胞）が少なかったから？」と疑いました。
そこで、より多様な細胞（免疫、腎臓、肺など）のデータを混ぜて AI の「脳」を再訓練（SAE の学習）してみました。

結果：
多少は改善しましたが、それでも「ルール」を理解する能力はほとんど上がりませんでした（6.2% → 10.4%）。
これは、「データのせい」ではなく、「AI の学習方法そのもの」に問題があることを意味します。
- 例え：
  生徒（AI）に、教科書（データ）を何万冊も読ませましたが、「テストの答え合わせ（予測）」だけを重視して勉強させたため、「なぜその答えになるのか（論理的な理由）」を深く理解する訓練が不足していたのです。

5. 結論と今後の展望

この研究は、以下のことを示しています。

AI はすごい： 生物の知識を、人間が想像するよりもはるかに緻密に、整理して内部に持っています。
AI はまだ未熟： しかし、それは「統計的なパターン（一緒に動くもの）」を覚えているだけで、「生物学的な因果関係（誰が誰を制御しているか）」は理解していません。
未来への示唆： これからの AI をもっと賢くするには、「単に予測させる」だけでなく、「遺伝子を操作した時の結果を予測させる」という特別な訓練を取り入れる必要があります。

まとめ

この論文は、**「AI は生物の『辞書』と『図鑑』は完璧に持っていますが、『仕組みの说明书（メカニズム）』はまだ持っていない」**と教えてくれました。

研究者は、この発見を誰でも見られるように、**「AI の脳内マップ（インタラクティブなウェブサイト）」**を公開しました。これにより、私たちは AI が何を知っていて、何を知っていないかを、より深く理解できるようになりました。

Each language version is independently generated for its own context, not a direct translation.

この論文「Sparse autoencoders reveal organized biological knowledge but minimal regulatory logic in single-cell foundation models: a comparative atlas of Geneformer and scGPT」は、単細胞ファウンデーションモデル（scFM）である Geneformer と scGPT の内部表現を、スパース・オートエンコーダ（SAE）を用いて体系的に解読し、モデルがどのような生物学的知識を保持しているか、また因果的な遺伝子制御ロジックを学習できているかを検証した研究です。

以下に、問題設定、手法、主要な貢献、結果、および意義について詳細な技術的サマリーを記述します。

1. 問題設定 (Problem)

単細胞ファウンデーションモデル（Geneformer, scGPT など）は、数百万のトランスクリプトームプロファイルから学習され、細胞タイプの注釈や摂動応答の予測において優れた性能を示しています。しかし、これらのモデルが学習した表現が、単なる統計的な共発現パターン（co-expression）を反映しているのか、それとも転写因子（TF）と標的遺伝子間の因果的な制御ロジック（causal regulatory logic）を内在化しているのかは不明瞭でした。
従来のアテンション重みの解析では、制御シグナルではなく共発現が検出される傾向がありましたが、モデルの残差ストリーム（residual stream）にはアテンションだけでは見えないより豊かな構造が隠されている可能性があります。また、ニューラルネットワークの「超位置（superposition）」現象（限られた次元に多数の概念を重畳して符号化する現象）により、標準的な線形分解手法（SVD や PCA）では生物学的特徴の大部分が見逃されている可能性がありました。

2. 手法 (Methodology)

本研究では、超位置を解きほぐし、解釈可能な特徴を抽出するためのスパース・オートエンコーダ（SAE）を、単細胞ファウンデーションモデルの残差ストリームに初めて体系的に適用しました。

対象モデル:
- Geneformer V2-316M: 18 層、隠れ次元 1,152、3000 万細胞で学習。
- scGPT Whole-Human: 12 層、隠れ次元 512、3300 万細胞で学習（連続値エンコーディング採用）。
SAE 訓練:
- 各層の残差ストリーム活性化に対して、TopK SAE を訓練。
- Geneformer: 入力次元 1,152 から 4 倍の 4,608 特徴量へ拡張、スパース性 $k=32$ 。
- scGPT: 入力次元 512 から 4 倍の 2,048 特徴量へ拡張、スパース性 $k=32$ 。
- 訓練データには、Replogle CRISPRi データセット（K562 細胞）および Tabula Sapiens データセット（多組織）を使用。
解析パイプライン:
1. 特徴量アトラスの構築: 各層の SAE 特徴量の抽出と、Gene Ontology, KEGG, Reactome, STRING, TRRUST などのデータベースを用いたアノテーション。
2. 超位置の定量化: SVD 軸との比較による「新規特徴量」の同定。
3. 共活性化モジュール解析: 相互情報量（PMI）を用いた特徴量間の共活性化ネットワークと、Leiden アルゴリズムによるモジュール検出。
4. 因果的パッチング（Causal Patching）: 特定の特徴量の活性化をゼロに置き換えた際、モデルの出力ロジットがどの程度変化するかを測定し、因果的必要性と特異性を評価。
5. 摂動応答マッピング: CRISPRi による遺伝子ノックダウンデータを用い、TF の制御ターゲットに対して特徴量が特異的に反応するかをテスト。
6. マルチティシュー制御実験: 単一細胞種（K562）のみで訓練した SAE と、多組織データを混合して訓練した SAE を比較し、ボトルネックがモデル側にあるかデータ側にあるかを検証。

3. 主要な貢献 (Key Contributions)

初の体系的な SAE 解析: 単細胞ファウンデーションモデルに対する最初の包括的な SAE ベースの解釈性解析アトラスの公開。
大規模な超位置の発見: 両モデルにおいて、SAE 特徴量の 99.8% が SVD 軸に一致せず、標準的な線形分解では見えない構造が生物学的信号を担っていることを実証。
階層的抽象化の可視化: 層ごとの特徴量の変化（分子機械から統合的細胞プログラムへの移行）と、U 字型のアノテーション率プロファイルの解明。
因果的制御ロジックの欠如の証明: モデルは共発現構造やパスウェイメンバーシップを内部化しているが、TF から標的遺伝子への因果的な制御ロジックはほとんど学習されていないという決定的な結論。
インタラクティブな Web プラットフォームの公開: 10 万を超える特徴量を探索できる Geneformer および scGPT 用 Feature Atlas の公開。

4. 結果 (Results)

4.1 超位置と生物学的組織化

超位置: Geneformer の全 18 層で 82,525 個、scGPT で 24,527 個の特徴量が抽出された。これらの特徴量の 99.8% は SVD 軸と一致せず、モデルは 1,152 次元（Geneformer）で 70 倍以上の圧縮率で生物学的概念を符号化している。
アノテーション: 新規特徴量の約 29–59% が生物学的データベースに注釈され、SVD 軸に一致する特徴量（14.3%）よりも遥かに高い生物学的関連性を示した。
層ごとのプロファイル: 注釈率は層 0-1 で高く（57-59%）、中層（層 6-8）で低下し、再び中後層で回復する「U 字型プロファイル」を示した。これは、初期層が分子機械、中層が抽象計算、後層が統合的プログラムや予測特化を担う階層的抽象化を反映している。
モジュール構造: 特徴量は 141（Geneformer）および 76（scGPT）の共活性化モジュールに組織化されており、細胞周期、免疫シグナリング、代謝など明確な生物学的アイデンティティを持つ。

4.2 因果的特異性と制御ロジック

因果的パッチング: 単一特徴量の除去（アブレーション）は、その特徴量が注釈された遺伝子群に対して特異的に影響を与えた（中央値 2.36 倍の特異性）。これは、モデルの計算がアテンションヘッド単位ではなく、特徴量レベルで構造化されていることを示す。
摂動応答の限界: CRISPRi 摂動データを用いた検証では、モデルは摂動の発生を検知する（92% のターゲットで特徴量変化）が、制御ターゲットに特異的に反応する割合は極めて低かった（48 個の TF のうちわずか 3 個、6.2%）。
ボトルネックの特定: 多組織データを混合して SAE を再訓練しても、特異性は 6.2% から 10.4% へわずかに改善するのみで、ランダムな変動の範囲内であった。これは、SAE の訓練データ不足ではなく、モデル自体の表現能力が因果的制御ロジックの学習においてボトルネックであることを示唆。

4.3 層間情報フロー

特徴量は層間でほとんど重複しない（層 0 の特徴量は層 11 以降ではほぼ消失）が、機能接続（情報ハイウェイ）は 97–99.8% の特徴量で存在し、生物学的なカスケード（例：mTORC1 制御→オートファジー）が層を超えて維持されていることが確認された。

5. 意義と結論 (Significance and Conclusions)

本研究は、現在の単細胞ファウンデーションモデルが**「組織化された生物学的知識（パスウェイ、タンパク質相互作用、機能的モジュール）」を豊富に内在化している一方で、「因果的な遺伝子制御ロジック」**はほとんど学習できていないことを明確に示しました。

科学的意義: モデルが「何を知っているか」と「何を知らないか」の境界を定義し、アテンション解析や SVD だけでは見逃されていた超位置による生物学的構造の重要性を浮き彫りにしました。
将来的な示唆: 因果的な制御関係を学習させるためには、現在の「次のトークン予測」や「マスク遺伝子予測」といった事前学習タスクでは不十分であり、摂動予測を目的とした学習信号（causal training objectives）の導入が必要である可能性が示唆されました。
ツールとしての価値: 公開されたインタラクティブ・アトラスは、研究者が 10 万を超える特徴量を探索し、モデルの内部計算を生物学的文脈で理解するための強力なリソースとなります。

総じて、この研究は生物学的ファウンデーションモデルの解釈可能性（Interpretability）の新たな基準を設け、モデルの限界と今後の改善方向性を明確に提示した重要な成果です。