CLADES - Contrastive Learning Augmented DifferEntial Splicing with Orthologous Positive Pairs

⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于人工智能如何理解基因“剪辑”规律的论文。为了让你轻松理解，我们可以把细胞里的基因运作想象成一家超级繁忙的电影剪辑室。

1. 核心问题：基因剪辑太复杂，而且数据太少

在生物体内，DNA 就像原始电影素材。细胞需要把不需要的片段剪掉，把需要的片段拼起来，才能变成最终的电影（蛋白质）。这个过程叫**“可变剪接”（Alternative Splicing）**。

难点：同样的素材（基因序列），在不同的场景（比如心脏细胞 vs. 大脑细胞）下，剪辑师（细胞）会剪出完全不同的电影。
挑战：科学家想预测这种变化（比如：在生病时，某个片段是变多了还是变少了？），但现有的数据太少了，而且不同实验做出来的数据噪音很大，就像只给了 AI 几部模糊的电影，却让它去猜所有可能的剪辑方案。

2. 解决方案：CLADES —— 用“进化”来当老师

这篇论文提出了一种叫 CLADES 的新方法。它的核心思想非常巧妙：利用进化论来教 AI。

创意比喻：双胞胎与失散多年的表亲

想象一下，人类和猴子、老鼠甚至鱼，在几亿年前是“亲戚”。

正例（Positive Pairs）：如果人类有一个基因片段负责“让心脏跳动”，那么我们的远房表亲（比如老鼠）体内，肯定也有一个功能完全一样的片段在负责同样的事。虽然它们的“台词”（DNA 序列）因为几亿年的演化变得有点不一样（口音不同），但**“剧情”（功能）是一样的**。
负例（Negative Pairs）：如果一个片段在人类是负责心脏的，而在老鼠体内是负责长尾巴的，那它们就是“路人”，功能完全不同。

CLADES 的做法：
它不像传统方法那样死记硬背人类的数据。它把人类和动物体内功能相同的基因片段配对，告诉 AI：“看，虽然这两个片段长得有点像又不像，但它们是亲兄弟，功能是一样的，请把它们在脑子里归为一类。”

这就好比教一个不懂中文的外国人学中文：

传统方法：给他看很多中文书，让他死记硬背。
CLADES 方法：给他看中文书，同时给他看翻译成英文、法文、西班牙文的同一本书。告诉他：“虽然语言不同，但故事核心是一样的。”这样，AI 就能学会抓住故事的核心逻辑（也就是基因调控的规律），而不是死记硬背具体的字词。

3. 它是怎么工作的？（三步走）

预训练（自学阶段）：
AI 先不看人类的具体疾病数据，而是去“阅读”成千上万种动物的基因。它通过对比不同物种中“功能相同”的片段，学会了识别哪些是真正重要的调控信号（比如剪接位点附近的特定密码），而忽略了那些无关紧要的噪音。这就像是一个实习生先看了几百部经典电影，学会了什么是“好剧本”，而不是只盯着某一部烂片看。
微调（实战阶段）：
学成之后，AI 再来看人类的具体数据（比如不同组织、不同细胞类型）。因为它已经掌握了通用的“剪辑规律”，所以只需要很少的人类数据，就能精准预测：在某种特定情况下（比如癌症或特定细胞），某个基因片段是会被**“剪掉”（减少）还是“保留”**（增加）。
可解释性（为什么这么剪？）：
这个模型不仅猜得准，还能告诉医生“为什么”。它能指出是基因序列中的哪个小片段（比如某个特定的字母组合）导致了这种变化。这就像剪辑师不仅能剪出电影，还能解释“我为什么在这里剪了一刀”。

4. 成果如何？

更准：在预测基因片段在不同组织（如大脑、肝脏）中的变化时，CLADES 比之前的最先进模型（SOTA）更准确。
更稳：特别是在数据很少的细胞类型中，它表现得更稳定。因为它学会了“举一反三”，而不是死记硬背。
更懂生物学：它发现的那些规律，和生物学家已知的科学原理（比如特定的蛋白质结合位点）高度吻合，证明它真的“懂”生物学，而不是在瞎猜。

5. 总结

CLADES 就像是一个拥有“进化智慧”的超级剪辑师。

它不再仅仅依赖人类提供的有限样本，而是通过跨越物种的“家庭聚会”（对比人类与动物的同源基因），学会了识别基因调控中那些永恒不变的真理。这使得它能在数据稀缺的情况下，依然精准地预测基因在不同环境下的“剪辑”行为，为理解疾病和开发新药提供了强大的新工具。

一句话概括：
以前我们教 AI 认基因，是让它死记硬背人类的数据；现在 CLADES 教 AI 认基因，是让它通过观察“全宇宙亲戚”的相似性，悟出了基因剪辑的通用法则。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题定义 (Problem)

核心挑战：可变剪接（Alternative Splicing, AS）是扩展真核生物转录组和蛋白质组多样性的关键机制。然而，从序列直接预测条件特异性的剪接变化（即 $\Delta\psi$ ，不同生物状态间外显子包含率的变化）极具挑战性。
现有局限：
- 数据稀缺与噪声：不同组织或细胞类型的标签数据有限，且实验协议（如测序深度、GC 含量偏差）引入了大量噪声，导致模型容易过拟合特定数据集的伪影。
- 预测目标困难：现有的深度学习模型（如 MTSplice）在预测绝对剪接率（ $\psi$ ）方面表现良好，但在预测组织或细胞类型间的相对变化（ $\Delta\psi$ ）方面仍表现不佳。 $\Delta\psi$ 包含了剪接变化的方向和幅度，是理解生物学差异的关键。
- 特征复杂性：剪接调控涉及短基序、RNA 结合蛋白（RBPs）及位置依赖的上下文，这些非线性依赖关系难以通过手工特征捕捉。

2. 方法论 (Methodology)

CLADES 提出了一种基于进化保守性的对比学习（Contrastive Learning, CL）预训练框架，旨在学习具有生物学意义的序列表示，从而解决上述问题。

2.1 核心思想：进化即增强 (Evolution-as-Augmentation)

正样本对构建：利用**同源外显子 - 内含子连接序列（Orthologous Positive Pairs, OPPs）**作为正样本对。
- 假设：尽管序列发生突变，但进化保守的外显子通常保留相同的调控程序（Regulatory Program）。因此，不同物种间同源的外显子序列在语义上是一致的“视图”。
- 负样本：非同源的外显子连接序列。
优势：这种方法利用了大量脊椎动物基因组比对数据（Multiz100way），无需依赖稀缺的组织特异性 RNA-seq 标签即可学习通用的调控特征，减少了对特定实验噪声的过拟合。

2.2 模型架构

预训练阶段 (Pre-training)：
- 输入：每个外显子及其上下游内含子序列（上游 300bp，下游 300bp，包含 100bp 外显子序列）。
- 编码器：采用并行 CNN-样条（Spline）变换层（参考 MTSplice 架构），分别处理 5' 和 3' 侧翼序列，以捕捉位置依赖的基序。
- 对比损失：使用监督对比损失（Supervised Contrastive Loss, $L_{sup}$ ）。对于每个锚点（Anchor）外显子，将其同源序列视为正样本，批次内其他序列视为负样本。通过拉近同源嵌入、推远非同源嵌入，学习对序列变异不敏感但对功能保守信号敏感的表示。
- 超参数：温度 $\tau=0.2$ ，批次大小 $N=2048$ ，每个锚点 $M=10$ 个增强视图。
微调阶段 (Fine-tuning)：
- 任务：在预训练编码器基础上，添加轻量级全连接层进行监督微调，预测特定组织/细胞类型下的 $\Delta\psi$ 。
- 输出：预测特定条件下的包含率对数几率（logit），结合平均包含率基线，通过 Sigmoid 函数得到最终预测值。
- 损失函数：最小化预测值与观测值之间的 Kullback-Leibler (KL) 散度。

2.3 新的任务定义

为了增强结果的可解释性，作者将回归问题转化为分类问题：

组织特异性调控分类 (TSRC)：判断外显子在特定组织中是上调（Up-regulated）、下调（Down-regulated）还是不变。
外显子级调控分类 (ELRC)：针对高表达或低表达的外显子，检测其在特定细胞类型中的特异性激活或抑制。

3. 关键贡献 (Key Contributions)

提出 CLADES 框架：首次将对比学习与进化保守性结合，用于学习可变剪接的序列表示。利用同源序列作为正样本对，有效解决了标签稀缺和实验噪声问题。
无监督预训练策略：证明了仅利用进化关系（无需组织特异性标签）即可学习到通用的剪接调控规律，这些规律能泛化到多种下游任务。
可解释的分类框架：引入了 TSRC 和 ELRC 任务，将连续的 $\Delta\psi$ 预测转化为生物学意义明确的调控方向分类，提供了更直观的评估指标。
状态最先进 (SOTA) 性能：在多个基准测试中，CLADES 的表现优于现有的 SOTA 模型（如 MTSplice）。

4. 实验结果 (Results)

4.1 数据集

预训练：基于 Multiz100way 的脊椎动物多序列比对，包含大量同源外显子。
微调与评估：
- ASCOT 数据集：56 种人类组织的可变剪接数据。
- Tabula Sapiens 数据集：112 种人类细胞类型的单细胞 RNA-seq 数据。

4.2 性能表现

组织特异性预测 (ASCOT)：
- 回归性能：在几乎所有组织中，CLADES 预测的 $\Delta\psi$ 与观测值的斯皮尔曼相关系数（Spearman $\rho$ ）均高于 MTSplice。在数据较少的组织中优势尤为明显。
- 分类性能：在区分上调/下调与不变外显子的任务中，CLADES 的 AUPRC 和 AUROC 显著提升（例如，上调检测的 AUPRC 提升了 14%）。
- 消融实验：包含外显子序列（Intron+Exon）且使用 10 个增强视图的配置效果最佳。对比学习使仅使用内含子序列的模型相关性从 0.188 提升至 0.268。
细胞类型特异性预测 (Tabula Sapiens)：
- 在 112 种细胞类型中，CLADES 在中等和高样本量的细胞类别中表现出稳健的预测能力， $\rho$ 值显著高于基线模型。
- 在 ELRC 任务中，CLADES 在检测高表达外显子的抑制和低表达外显子的激活方面，各项指标（Precision, Recall, F1, AUPRC, AUROC）均优于基线。
可视化分析：
- UMAP 投影：同源外显子在嵌入空间中紧密聚类；嵌入空间能根据平均包含率（ $\psi$ ）和调控方向（上调/下调）自然分离。
- 显著性分析 (Saliency)：模型最关注的区域集中在剪接位点（Splice Sites），显著性峰值处富集了保守的 AG（受体）和 GT（供体）基序，证明模型学到了真实的生物学信号。

5. 意义与结论 (Significance)

生物学原理验证：研究证实了“进化即增强”（Evolution-as-Augmentation）的有效性。进化保守性编码了剪接调控的不变性，通过对比学习可以提取这些保守的基序和位置信号。
泛化能力：CLADES 学习到的表示具有高度的可迁移性，能够适应不同的组织、细胞类型甚至数据稀缺的场景，无需针对每个新环境重新训练大量参数。
未来方向：虽然当前模型在保守调控程序上表现优异，但对于谱系特异性或非保守的调控程序仍有局限。未来工作将探索结合多模态数据（如 RBP 结合、核小体位置）以及更复杂的系统发育感知增强策略，旨在构建通用的剪接调控基础模型（Foundation Model）。

总结：CLADES 通过利用进化信息作为对比学习的正样本对，成功构建了一个能够精准预测组织及细胞特异性剪接变化的深度学习框架。它不仅提高了预测精度，还通过引入可解释的分类任务，加深了对剪接调控机制的理解，为利用 AI 解析复杂生物学问题提供了新的范式。