Adapting a Pre-trained Single-Cell Foundation Model to Spatial Gene Expression Generation from Histology Images

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 HINGE 的新方法，它的核心任务可以概括为：“看图猜基因”。

想象一下，医生手里有一张人体组织的普通显微镜照片（就像我们平时看的病理切片，叫 H&E 染色图），他们想知道这张照片里每个微小区域的基因表达情况（也就是细胞里正在发生什么分子层面的活动）。

传统的做法是：要么花大价钱、花很长时间去做昂贵的基因测序实验（空间转录组技术）；要么用电脑算法直接“硬猜”，但这往往猜不准，或者猜出来的结果缺乏生物学上的合理性。

HINGE 是怎么做的呢？ 我们可以用三个生动的比喻来理解：

1. 核心难题：两个“语言不通”的专家

专家 A（单细胞大模型）： 这是一个读过无数本“细胞基因书”的超级学霸（预训练的单细胞基础模型，sc-FM）。它非常懂基因之间的关系（比如基因 A 和基因 B 总是手拉手出现），但它只懂文字（基因数据），完全看不懂图片。
专家 B（病理图像）： 这是一张张精美的组织照片，里面藏着细胞的位置和形态，但没有基因数据。
难题： 我们想让专家 A 看着专家 B 的照片，写出对应的基因报告。但专家 A 没学过看图，而且它以前只学过“填空游戏”（把基因数据遮住一部分让它猜），现在要它做“看图说话”，直接让它改作业，它容易把以前学好的知识全忘掉（灾难性遗忘），或者猜得乱七八糟。

2. HINGE 的解决方案：给学霸装个“翻译耳机”

HINGE 没有让学霸重新从头学起，而是给它戴上了一副特制的**“软性翻译耳机”（SoftAdaLN）**。

保留原样（冻结骨干）： 我们不改变学霸原本的大脑结构（冻结预训练模型的参数），确保它脑子里那些珍贵的“基因关系知识”不会丢失。
插入耳机（SoftAdaLN）： 我们在学霸的每一个思考步骤中，插入一个轻量级的模块。这个模块就像耳机，一边听着“图片专家”传来的声音（组织图像特征），一边听着“时间进度条”（生成过程的进度），然后轻轻调整学霸的注意力。
- 比喻： 就像你听歌时，耳机里混入了一点环境音，让你既能听清旋律（基因关系），又能感受到现场氛围（组织图像）。
身份初始化： 这个耳机刚戴上时，音量是 0（初始化为恒等映射），这意味着刚开始学霸完全按自己原来的老习惯思考，不会一下子被带偏。随着训练进行，音量慢慢调大，它才学会结合图片信息。

3. 独特的“遮罩猜谜”游戏（Masked Diffusion）

以前的方法让模型去猜“被高斯噪声（像雪花点一样的杂音）”污染的基因数据，这跟学霸以前学的“把字遮住让它猜”（掩码自编码）不一样，学霸会晕。

HINGE 设计了一个**“遮罩扩散”**的新玩法：

玩法： 它不是把基因数据变成杂音，而是像玩“找茬”游戏一样，把一部分基因数据直接“盖住”（变成 0 或特殊标记），让模型根据剩下的部分和看到的图片，把被盖住的部分补全。
好处： 这跟学霸以前学的“遮字猜词”游戏一模一样！所以学霸学得非常快，而且能完美保留它原本对基因关系的理解。

4. 循序渐进的“热身课”（Warm-Start Curriculum）

刚开始训练时，如果一下子把大部分基因都盖住，学霸会懵。

策略： HINGE 先让学霸做简单的题（只盖住很少一部分基因），等它适应了“看图猜基因”的模式后，再慢慢增加难度（盖住更多基因）。这就像教小孩学骑车，先扶着走，再慢慢放手。

总结：为什么它很厉害？

更准： 在三个不同的组织数据集（皮肤癌、乳腺癌、肾脏）上，HINGE 猜基因表达的准确度都超过了现有的所有方法。
更懂生物学： 它不仅猜对了单个基因，还猜对了基因之间的配合关系（比如哪些基因总是同时活跃）。这是因为它的“大脑”保留了预训练模型学到的基因知识，而不仅仅是死记硬背图片。
更省钱： 以后医生可能只需要一张普通的病理照片，就能通过 HINGE 算出昂贵的基因测序结果，大大降低了成本和时间。

一句话总结：
HINGE 就像给一个只懂文字的“基因天才”戴上了能听懂图像的“智能耳机”，并让它玩起了它最擅长的“遮字猜词”游戏，从而实现了**“看图即知基因”**的奇迹，既保留了天才的原有智慧，又学会了新技能。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于将预训练的单细胞基础模型（Single-Cell Foundation Models, sc-FMs）适配用于从组织学图像生成空间基因表达（Spatial Gene Expression）的论文。论文提出了名为 HINGE (HIstology-coNditioned GEneration) 的新框架。

以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

背景：空间转录组学（ST）能够在原位测量基因表达，但成本高、通量低。从常规获取的苏木精 - 伊红（H&E）染色组织学图像中直接推断空间基因表达是一个极具吸引力的替代方案。
现有方法的局限：
- 确定性回归：大多数现有方法采用图像到基因的确定性回归，忽略了生物变异性和空间异质性，无法捕捉基因 - 基因之间的依赖关系。
- 生成式模型的不足：虽然基于分数或流（Flow）的生成模型开始被引入，但它们通常缺乏对基因间依赖关系（如共表达模式）的显式建模，导致生成的表达模式缺乏生物学一致性。
- 单细胞基础模型（sc-FMs）的适配难题：sc-FMs（如 scGPT, CellFM）在大规模单细胞 RNA 测序数据上预训练，掌握了复杂的基因关系，但直接将其迁移到“组织学条件化”的任务中面临四大挑战：
  1. 模态差距：sc-FMs 缺乏处理组织学图像的视觉路径。
  2. 目标不匹配：sc-FMs 通常使用掩码自编码（Masked Autoencoding）预训练，而现有的生成模型多使用高斯噪声去噪（DDPM），输入分布和监督模式不一致。
  3. 组成偏移：单细胞数据是单细胞层面的，而 ST 数据是局部细胞混合的，存在表达偏移。
  4. 监督有限：ST 数据集较小且噪声大，全量微调容易导致灾难性遗忘（Catastrophic Forgetting）。

2. 方法论 (Methodology: HINGE)

HINGE 旨在将预训练的 sc-FM 改造为条件生成器，同时保留其学到的基因关系。主要技术组件包括：

A. 掩码扩散过程 (Masked Diffusion Process)

为了解决预训练目标（掩码自编码）与生成目标（去噪）之间的不匹配，HINGE 设计了一个表达空间的掩码扩散过程：

前向过程：不是向所有基因添加高斯噪声，而是使用随机掩码逐步将基因表达值置零（Mask）。这模拟了 sc-FM 预训练时的输入分布。
反向过程：模型根据当前的部分观测表达（被掩码的向量）、时间步 $t$ 和组织学图像条件，预测被掩码的基因值。
损失函数：仅针对被掩码的基因分量计算重建误差，确保监督模式与预训练一致。

B. SoftAdaLN 条件注入机制

为了在不破坏预训练知识的前提下引入组织学信息，HINGE 在冻结的 sc-FM 骨干网络中插入了SoftAdaLN（Soft Adaptive Layer Normalization）：

身份初始化 (Identity Initialization)：所有调制参数（缩放、偏移等）初始化为恒等变换，确保微调初期模型行为与预训练模型一致，防止灾难性遗忘。
层间调制：将组织学特征（来自预训练的视觉编码器）和时间步信息注入到 Transformer 的每一层。
软归一化 (SoftNorm)：结合原始输入和归一化后的输入，使模型能平滑地从“仅表达”模式过渡到“条件化”模式。

C. 热身课程学习 (Warm-Start Curriculum)

为了进一步稳定训练并匹配预训练的低掩码率（约 20%）：

在微调初期，仅从低掩码率的时间步（即大部分基因可见）进行采样。
随着训练进行，逐渐覆盖全范围的掩码率。这有助于模型在保持预训练知识的同时，逐步学习如何根据组织学条件进行生成。

3. 主要贡献 (Key Contributions)

首个框架：提出了 HINGE，是第一个将预训练的“仅表达”单细胞基础模型适配用于“组织学条件化”基因表达生成的框架。
创新组件：设计了 SoftAdaLN、表达空间掩码扩散目标以及热身课程学习策略，实现了在有限监督下的高效、稳定知识迁移。
性能突破：在三个不同组织的 ST 数据集上，HINGE 在平均皮尔逊相关系数（PCC）、空间标记基因表达模式的准确性以及基因对共表达一致性方面，均超越了现有的判别式和生成式基线模型。

4. 实验结果 (Results)

数据集：在 cSCC（皮肤鳞状细胞癌）、Her2ST（乳腺癌）和 Kidney（肾脏）三个数据集上进行了评估。
定量指标：
- HINGE 在 PCC-50 和 PCC-200（前 50/200 个高变基因的相关性）指标上均取得了 SOTA 成绩。例如在 cSCC 数据集上，PCC-50 从基线 STFlow 的 0.678 提升至 0.705。
- 在均方误差（MSE）和平均绝对误差（MAE）上也表现优异或具有竞争力。
定性分析：
- 标记基因：HINGE 能更准确地捕捉如 KRT6A 和 GNAS 等标记基因的高表达区域，保留了空间对比度，避免了基线模型的过度平滑。
- 基因共表达：生成的基因 - 基因相关性矩阵与真实值高度一致，证明了模型成功保留了 sc-FM 学到的基因依赖关系，并将其适配到了空间上下文中。
消融实验：
- 证明了使用预训练 sc-FM 并冻结骨干（仅训练调制器）优于从头训练或仅微调解码器。
- 证明了掩码扩散（Masked Diffusion）优于传统的高斯扩散。
- 证明了 SoftAdaLN 中的软归一化和身份初始化对稳定训练至关重要。

5. 意义与影响 (Significance)

生物学一致性：HINGE 解决了生成式模型在空间转录组任务中忽视基因间复杂依赖关系的问题，生成的表达数据具有更高的生物学可信度。
低成本高价值：提供了一种从廉价、易得的 H&E 图像中获取高质量空间基因表达数据的途径，有助于降低空间转录组学的成本，促进其在临床和基础研究中的应用（如生物标志物发现、组织域识别）。
通用性：虽然本文以 CellFM 为例，但其架构设计（SoftAdaLN + 掩码扩散）是架构无关的，原则上可应用于其他单细胞基础模型（如 scGPT），为多模态生物医学 AI 的发展提供了一条通用路径。

总结：HINGE 通过巧妙地将预训练的单细胞知识“嫁接”到组织学条件生成任务中，利用掩码扩散和轻量级调制技术，成功克服了模态差异和训练不稳定性，实现了从组织学图像到高精度、高生物学一致性空间基因表达的生成。