X-Cell: Scaling Causal Perturbation Prediction Across Diverse Cellular Contexts via Diffusion Language Models

Wang, C., Karimzadeh, M., Ravindra, N. G., Bounds, L. R., Alerasool, N., Huang, A. C., Ma, S., Gulbranson, D. R., Cui, H., Lee, Y., Arjavalingam, A., MacKrell, E. J., Wilken, M. S., Chen, J., Herken, B. W., Weber, J. A., Onesto, M. M., Gonzalez-Teran, B., Leung, N. F., Shi, S. Y., Smith, B. J., Lam, S. K., Barner, A., Wright, P., Rumsey, E. M., Kim, S., Sit, R. V., Litterman, A. J., Chu, C., Wang, B.

公開日 2026-03-20

📖 1 分で読めます☕ さくっと読める

閲覧： bioRxiv ↗PDF ↗

⚕️

これは査読を受けていないプレプリントのAI生成解説です。医学的助言ではありません。この内容に基づいて健康上の判断をしないでください。免責事項の全文を読む

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「細胞の未来を予言する超高性能な AI」**の開発について書かれています。

まるで「もしも、この薬を飲んだら、あなたの細胞はどんな反応をするのか？」を、実験室で実際に試す前に、コンピューター上で正確にシミュレーションできるような技術です。

以下に、専門用語を避け、身近な例えを使って分かりやすく解説します。

🧬 1. 何が問題だったのか？（「地図」の欠陥）

これまでに科学者が持っていたのは、**「観察用の地図」だけでした。
「この細胞は元気そう」「あの細胞は疲れている」という、自然な状態のデータはたくさんありました。しかし、「もしも、この遺伝子をいじったらどうなるか？」という「実験的な変化」**のデータは、とても少なかったのです。

例え話：
料理のレシピ本（観察データ）はたくさんありますが、「塩を 10 倍入れたらどうなるか」「砂糖を抜いたらどうなるか」という**「実験結果の記録」**がほとんどない状態でした。そのため、AI は「塩を減らしたら甘くなるかも」と推測するだけで、実際には「味が全く変わってしまう」ような予測しかできませんでした。

🚀 2. 彼らが作ったもの：「X-Atlas/Pisces（ピスネス）」

そこで研究チームは、**「世界最大規模の実験データ」を作りました。
2560 万個もの細胞を使って、「CRISPRi（クリスパー）」**という技術で遺伝子を 1 つずつ「スイッチオフ」にし、その反応をすべて記録しました。

例え話：
16 種類の異なる「細胞の町」（肝臓、免疫細胞、幹細胞など）を用意し、それぞれの町で**「もしもこの街路灯（遺伝子）を消したら、街の雰囲気（細胞の動き）はどう変わるか？」を、2560 万回も実験して記録しました。これが「X-Atlas（ピスネス）」**という、膨大な実験データベースです。

🤖 3. 開発した AI：「X-Cell（エックス・セル）」

この膨大な実験データを使って、**「X-Cell」という AI を作りました。
この AI のすごいところは、「ただの暗記」ではなく「理解」**をしている点です。

どうやって理解しているの？
X-Cell は、遺伝子の名前だけでなく、以下の**「6 つの知識」**を組み合わせて考えます。
1. 言葉の知識： 遺伝子の説明書（自然言語）。
2. 形と構造： タンパク質の形（アミノ酸の並び）。
3. 人間関係： 遺伝子同士のつながり（ネットワーク）。
4. 依存関係： がん細胞がどの遺伝子に依存しているか。
5. 見た目： 細胞の形や大きさの変化。
6. 過去の経験： 既存の細胞データ。
例え話：
普通の AI が「塩を減らしたら甘くなる（単純な推測）」と答えるのに対し、X-Cell は**「塩を減らすと、この料理のタンパク質の結合が弱くなり、酸味が際立つかもしれない。でも、この食材なら大丈夫だ」と、化学、料理の知識、過去の味付けの記録を全部組み合わせて「シミュレーション」**します。

✨ 4. 驚くべき成果：「ゼロショット学習」

この AI の最大の特徴は、「見たことのない状況」でも正解を出せることです。

例え話：
- 訓練データ： 「東京の交通事情」を徹底的に学んだ AI。
- テスト： 「見知らぬ田舎の道」を走れと言われたら、普通の AI は迷子になります。
- X-Cell の結果： 「東京で学んだ『信号の仕組み』や『歩行者の動き』の法則」を応用して、**「田舎の道でも、安全に目的地まで導く」**ことができました。

具体的には、**「訓練データに一度も出てこなかった『免疫細胞（T 細胞）』」や「新しい細胞の種類」**に対しても、遺伝子をいじった時の反応を、実験結果とほぼ同じ精度で予測しました。

📈 5. 「大きければ大きいほど上手になる」法則

この研究で面白い発見がありました。AI のサイズ（パラメータ数）を大きくするほど、性能が劇的に向上したのです。

例え話：
大規模言語モデル（LLM）と同じように、**「脳（モデル）を大きくし、経験（データ）を増やすと、賢くなる」という「スケーリングの法則」が、生物学の世界でも成り立つことが証明されました。
彼らは 49 億パラメータという巨大なモデル（X-Cell-Ultra）を作り、これが「細胞の未来を予言する基礎モデル」**として機能することを実証しました。

🎯 まとめ：これがなぜすごいのか？

この技術は、**「薬の開発」**を劇的に変える可能性があります。

今までの方法： 新薬の候補を 1000 個作って、一つずつ実験して「効くか」を確認する（時間とコストがかかる）。
これからの方法： 新薬の候補を AI に見せれば、**「この薬は A さんの細胞には効くが、B さんの細胞には副作用がある」と、実験する前に「シミュレーション」**で分かります。

つまり、「失敗する実験」を事前に排除し、「成功する治療法」を素早く見つけるための強力なツールが完成したのです。

一言で言うと：
「2560 万回の実験データと6 つの知識を学んだ AI が、『もしも遺伝子を変えたらどうなるか』を、見たことのない細胞でも、実験する前に正確に予言することができるようになった」という画期的な研究です。

Each language version is independently generated for its own context, not a direct translation.

1. 問題定義 (Problem)

創薬や生物学的発見において、遺伝子や経路への干渉（ノックダウンなど）が、多様な細胞コンテキスト（細胞種や状態）においてどのように遺伝子発現を変化させるかを予測することは極めて重要です。しかし、既存の手法には以下の重大な限界がありました。

観察データへの依存: 多くの既存の単一細胞基礎モデル（Foundation Models）は、観察的なトランスクリプトームアトラス（相関関係のみ）で訓練されており、因果関係（干渉による変化）を捉えることができません。
分布外（OOD）一般化の欠如: 既存モデルは訓練データに含まれる細胞種や干渉条件では性能を発揮しますが、訓練データに含まれない新しい細胞種や干渉条件に対する「ゼロショット（Zero-shot）」予測能力が低く、外挿（Extrapolation）が困難です。
スケーラビリティの限界: モデルパラメータ数を増やすだけでは、一般化性能のギャップを埋めるのに不十分であることが示唆されていました。

2. 手法 (Methodology)

2.1 データセット：X-Atlas/Pisces

研究チームは、因果的干渉データを大規模に収集・生成しました。

規模: 2560 万の干渉された単一細胞トランスクリプトーム。
多様性: 16 の異なる生物学的コンテキスト（HCT116, HEK293T, HepG2, iPSC, Jurkat T 細胞（静止・活性化）, iPSC 多系統分化など）を含む 7 つのゲノムワイド CRISPRi Perturb-seq スクリーン。
技術的革新: 脆弱な細胞種（HepG2, Jurkat）に対しても高品質なデータを取得するため、凍結後の FACS 選別を可能にする最適化された「FiCS Perturb-seq」プロトコルや、固定細胞に対応する「Flex Perturb-seq」を採用しました。

2.2 モデル：X-Cell (Diffusion Language Model)

X-Cell は、対照状態（Control）から干渉状態（Perturbed）へのトランスクリプトームシフトを予測する拡散言語モデルです。

アーキテクチャ: Transformer ベースの拡散モデル。対照細胞セットを入力とし、干渉条件を条件付け（Conditioning）して、干渉後の遺伝子発現分布を生成します。
マルチモーダルな事前知識の統合: 単なる遺伝子発現データだけでなく、以下の 6 つの事前知識ソースをクロスアテンション機構を通じて統合しています。
1. GenePT: 自然言語モデル（LLM）から得られた遺伝子機能のテキスト埋め込み。
2. ESM-2: タンパク質言語モデルから得られたアミノ酸配列に基づく構造・生化学的埋め込み。
3. STRING: タンパク質間相互作用ネットワーク。
4. DepMap: がん依存性マップ（遺伝子ノックアウトによる細胞生存率への影響）。
5. JUMP-Cell Painting: 形態学的プロファイリングデータ。
6. scGPT: 既存の単一細胞基礎モデルからの遺伝子埋め込み（初期化および適応的更新）。
訓練プロセス:
- 拡散マスク: 対照発現値の一部を干渉値に置き換え、マスクされた部分を再予測するタスクとして訓練。
- 損失関数: 分布一致（MMD）、フォールドチェンジの一致（CCC）、発現量の縮小防止（Delta Norm Penalty）など、生物学的な特性を捉えるための複合損失関数を使用。
- 推論: 推論時には、予測値の一部を再マスクして入力に戻す「反復的拡散（Iterative Diffusion）」により、予測を段階的に洗練させます。

2.3 スケーリング：X-Cell-Ultra

規模: 49 億パラメータ（4.9B）を持つ超大規模モデル。
訓練戦略: 高効果の干渉データから段階的に学習する「カリキュラム学習」を採用。
テスト時適応（TTA）: 未知の細胞コンテキストに対して、ラベルなしの対照細胞データを用いて自己教師あり学習（MMD 損失のみ）を行い、モデルの自己アテンション表現をターゲットドメインに適合させます。

3. 主要な貢献 (Key Contributions)

X-Atlas/Pisces データセットの公開: 現在までに最大規模のゲノムワイド CRISPRi Perturb-seq コレクション（2560 万細胞）を構築し、多様な細胞種における因果的干渉データを公開しました。
X-Cell モデルの提案: 拡散言語モデルとマルチモーダルな生物学的事前知識を統合した新しいアーキテクチャを提案し、因果的干渉予測の SOTA（State-of-the-Art）を確立しました。
スケーリング則の発見: 単一細胞干渉予測タスクにおいて、モデルの性能がパラメータ数とデータ量に対して、大規模言語モデル（LLM）と同様の**べき乗則（Power-law）**に従って向上することを初めて実証しました。
ゼロショット一般化の実証: 訓練データに存在しない細胞種（iPSC 由来のメラノサイト前駆細胞、一次ヒト CD4+ T 細胞）や、刺激された T 細胞の非活性化予測など、完全なゼロショット設定で高い精度を達成しました。

4. 結果 (Results)

性能向上: X-Cell は、既存の最先端モデル（Cell2Sentence, STATE, scGPT など）と比較して、主要指標（Pearson $\Delta$ $Δ$ 、DE Direction Match など）において最大で5 倍の性能向上を示しました。
- 例：iPSC/HepG2 検証セットにおいて、Pearson $\Delta$ が 0.51（X-Cell）に対し、次点の STATE は 0.10 でした。
ゼロショット予測の成功:
- T 細胞の非活性化: 静止状態の Jurkat 細胞データのみでファインチューニングしたモデルが、活性化された Jurkat 細胞における CD3 複合体のノックダウンによる「非活性化（静止状態への回帰）」を正確に予測しました。
- 未知の細胞種: 訓練データに含まれていないメラノサイト前駆細胞や、複数のドナーからの一次ヒト T 細胞に対しても、TTA を適用することで高い予測精度を維持しました。
スケーリング則:
- 訓練損失はパラメータ数 $N$ に対して $L(N) \propto N^{-0.32}$ のべき乗則に従い、LLM と同様の傾向を示しました。
- ただし、テスト損失や生物学的指標（DE Pearson r）の向上は、パラメータ数が増加してもある点（約 16 億パラメータ付近）で飽和傾向を示しました。これは、モデル容量ではなく、**「ユニークな（干渉、コンテキスト）の組み合わせ数」**が現在のボトルネックであることを示唆しています。
事前知識の寄与: 注意重みの分析により、STRING（相互作用ネットワーク）と ESM-2（タンパク質構造）が予測に最も重要な役割を果たしていることが明らかになりました。

5. 意義 (Significance)

創薬プロセスの加速: 計算機上で「未実施の干渉」を高精度にシミュレーションすることで、新規創薬ターゲットの同定、検証、および患者層別化（コンテキスト特異的な治療優先順位付け）を大幅に効率化できます。
基礎生物学の理解: 遺伝子干渉が細胞種や状態によってどのように異なる応答を生むか（コンテキスト依存性）を解明し、保存された生物学的経路と細胞種特異的な制御プログラムを区別する能力を提供します。
AI と生物学の融合: 大規模な因果的干渉データと、LLM のスケーリング則を生物学的モデルに応用することで、次世代の「生物学的基礎モデル（Biological Foundation Models）」の構築に向けた道筋を示しました。
臨床応用への展望: 一次細胞（Primary Cells）や患者由来細胞に対する予測精度が向上したことは、個別化医療や、臨床試験前の「in silico 臨床試験」の実現に大きく寄与する可能性があります。

この研究は、単なる相関関係のモデル化を超え、因果的干渉を予測可能な基礎モデルを確立し、そのスケーリング可能性を実証した画期的な成果と言えます。