Extending Sequence Length is Not All You Need: Effective Integration of Multimodal Signals for Gene Expression Prediction

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 Prism 的新方法，用来预测基因是如何“工作”的（即基因表达量）。为了让你轻松理解，我们可以把基因预测想象成**“预测一家餐厅明天的客流量”**。

1. 过去的误区：试图看遍整座城市

以前的科学家认为，要预测一家餐厅（基因）明天有多少人，必须把整座城市（长达几十万甚至上百万个碱基对的 DNA 序列）都看一遍。

原因：他们觉得，也许几公里外（远距离）的一个公园（增强子）突然举办活动，会吸引很多人来这家餐厅。
问题：现在的电脑模型就像是一个视力不好且记性差的人。让他看整座城市，他不仅记不住，还会因为信息太多而晕头转向，反而猜不准。就像论文里说的，强行拉长输入序列，模型的表现反而变差了。

2. 新的发现：关键在“门口”的招牌

作者发现，其实不需要看整座城市。真正决定客流量的，往往是餐厅门口（基因附近）发生的事。

关键线索：门口有没有挂“今日特价”的牌子（H3K27ac 信号，代表活跃区域）？门口是不是堵车了（染色质开放性）？
核心观点：只要把门口附近的这些信息（多模态表观遗传信号）分析清楚，哪怕不看远处的城市，也能猜得很准。

3. 遇到的新麻烦：被“背景噪音”带偏了

虽然看门口很有效，但门口也有**“噪音”**。

比喻：
- 好信号（前景）：门口挂着的“今日特价”牌子（H3K27ac）。这直接告诉我们要来人了。
- 坏信号（背景/混淆因素）：门口那条路平时就车多（DNase 和 Hi-C 信号，代表染色质开放和空间结构）。
陷阱：以前的模型太笨了，它发现“车多”的时候“客流”也多，就以为“车多”是“客流多”的原因。于是它学会了错误的关联：只要看到路宽，就猜人多。但实际上，有时候路很宽（车多），但餐厅关门了（没挂牌子），根本没人来。
后果：模型学会了“看路猜人”，一旦遇到路宽但没牌子的情况，它就彻底猜错了。

4. Prism 的绝招：学会“透过现象看本质”

为了解决这个问题，作者发明了 Prism（棱镜）框架。

它的原理：
Prism 就像一个聪明的调酒师。它知道，虽然“路宽”（背景噪音）和“人多”经常一起出现，但它们之间没有因果关系。
1. 识别背景：Prism 会先学习识别不同的“背景状态”。比如，它能把“单纯路宽”和“路宽且挂牌子”区分开。
2. 因果干预（后门调整）：它会在脑子里做一个实验：“如果我把‘路宽’这个因素强行拿掉，只保留‘挂牌子’这个因素，客流会是多少？”
3. 去伪存真：通过这种“做实验”的方式，Prism 强行切断了“路宽”对预测的干扰，只让真正的“挂牌子”信号起作用。

5. 最终效果：短小精悍，效果拔群

以前：拼命加长输入序列（看整座城市），模型越看越晕，效果变差。
现在（Prism）：只看门口（短序列），但加上 Prism 的“去噪”能力，模型反而猜得更准，甚至超过了那些看遍整座城市的最先进模型。
代价：Prism 非常轻量级，只增加了一点点计算成本（就像给模型戴了一副智能眼镜，而不是给它换了一个超级大脑）。

总结

这篇论文告诉我们：在预测基因表达时，不要盲目追求“看得更远”（长序列），而要追求“看得更清”（多模态信号的去噪与因果分析）。

就像预测餐厅客流，与其盯着几公里外的公园看，不如学会分辨门口是“真的在搞活动”还是“只是平时路宽”。Prism 就是那个能帮你分清这两者的智能助手。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的会议论文，题为《EXTENDING SEQUENCE LENGTH IS NOT ALL YOU NEED: EFFECTIVE INTEGRATION OF MULTIMODAL SIGNALS FOR GENE EXPRESSION PREDICTION》（扩展序列长度并非唯一所需：多模态信号的有效整合用于基因表达预测）。

以下是对该论文的详细技术总结：

1. 研究背景与问题定义 (Problem)

核心挑战：
基因表达预测旨在从 DNA 序列中预测 mRNA 的表达水平。现有的主流方法主要致力于扩展输入序列长度（从几千碱基对扩展到 200kb 甚至更长），试图捕捉远距离的增强子（enhancers）对目标基因的调控作用。

现有方法的局限性：
作者通过实验发现，单纯增加序列长度并不能显著提升性能，甚至会导致性能下降。原因包括：

技术限制： 当前基于状态空间模型（SSM）的长序列模型（如 Caduceus, Seq2Exp）存在近期偏差（Recency Bias），即模型更关注序列末尾的上下文，难以有效捕捉远距离的调控关系。
性能瓶颈： 即使使用精心设计的掩码机制（如 Seq2Exp），在极长序列（200kb）上的表现也仅与短序列（如 500bp）相当，说明模型并未真正利用长距离信息。
多模态信号的混淆效应： 现有方法通常简单地将多种表观基因组信号（如 H3K27ac, DNase-seq, Hi-C）拼接（Concatenation）输入模型。作者发现，虽然某些信号（如 H3K27ac）直接标记活性调控元件（前景信号），但其他信号（如 DNase-seq, Hi-C）反映的是背景染色质状态。这些背景信号与基因表达存在虚假相关性（Spurious Correlations），导致模型学习到非因果的关联（即模型误以为只要染色质开放就能表达，而忽略了具体的调控元件）。

核心问题：
如何在短序列（Proximal sequences）下，通过有效整合多模态表观基因组信号，消除背景染色质状态带来的混淆效应，从而实现高精度的基因表达预测？

2. 方法论：Prism 框架 (Methodology)

为了解决上述问题，作者提出了 Prism (Proximal regulatory integration of signals for mRNA expression levels prediction) 框架。

2.1 核心思想

Prism 不依赖长序列建模，而是聚焦于短序列（如 2kb）结合多模态表观基因组信号。其核心创新在于从因果推断的角度出发，将背景染色质状态视为混淆变量（Confounder），并通过**后门调整（Backdoor Adjustment）**来消除其干扰。

2.2 结构因果模型 (SCM)

作者构建了如下因果图：

$H \to Y$ ：高维表观基因组特征 $H$ 直接决定基因表达 $Y$ 。
$H \leftarrow C \to Y$ ：背景染色质状态 $C$ $C$ 同时影响观测到的特征 $H$ $H$ 和表达水平 $Y$ $Y$ 。
- 例如：全局活跃的染色质区域往往同时具有高可及性信号和高表达，这种相关性可能是非因果的。
目标：估计干预分布 $P(Y | do(H))$ ，即控制混淆变量 $C$ 后， $H$ 对 $Y$ 的因果效应。

2.3 技术实现

信号编码器 ( $g_\theta$ )：将原始多模态信号 $S$ 映射到高维特征空间 $H$ 。
混淆变量编码器 ( $g_\omega$ )：
- 这是一个轻量级的 1D-CNN，输入原始信号 $S$ ，输出 $n$ 组可学习的权重向量 $\{a_1, ..., a_n\}$ 。
- 每组权重代表一种特定的背景染色质状态（即混淆变量 $C$ 的离散化状态）。
- 这些权重是基因级别的（Gene-wise），而非位置级别的，假设同一基因区域内的背景调控模式是一致的。
后门调整干预预测：
- 利用后门调整公式： $P(Y | do(H)) = \sum P(Y | H, C=C_i)P(C=C_i)$ 。
- 在实现上，模型对 $n$ 种不同的背景状态进行加权预测，然后取平均：
  $\hat{Y}_{do} = \frac{1}{n} \sum_{i=1}^{n} h_\phi(X, H \odot a_i)$
  其中 $\odot$ 表示逐元素相乘， $h_\phi$ 是预测网络（基于 Caduceus 骨干）。
训练目标：
- $L_1$ (预测损失)：标准预测损失（Smooth L1 Loss）。
- $L_2$ (干预正则化)：强制模型在干预分布下的预测也接近真实标签，从而学习去除混淆效应。
- $L_3$ (多样性损失)：防止 $n$ 个权重向量坍缩成同一种模式，鼓励学习多样化的背景状态表示（基于均匀分布约束）。
- 总损失： $L = L_1 + \alpha L_2 + \beta L_3$ 。

3. 关键贡献 (Key Contributions)

挑战长序列范式：通过实验证明，当前的长序列建模技术（如 SSM）在基因表达预测任务中并未带来预期的性能提升，甚至存在性能退化。短序列结合多模态信号是更优路径。
揭示信号混淆效应：系统分析了不同表观基因组信号的作用，指出背景信号（如 DNase, Hi-C）虽然单独贡献有限，但会引入严重的混淆效应，导致模型产生虚假关联。
提出 Prism 框架：
- 首次将因果推断（后门调整）引入基因表达预测。
- 通过无监督学习高维特征组合来表征背景染色质状态，有效解耦了前景调控信号与背景噪声。
SOTA 性能与高效性：
- 仅使用2kb 短序列，Prism 在 K562 和 GM12878 细胞系上均取得了State-of-the-Art (SOTA) 的预测性能，显著优于 Seq2Exp、Caduceus 等长序列模型。
- 模型参数量增加极少（仅增加约 11K 参数），计算开销低。

4. 实验结果 (Results)

数据集：K562 和 GM12878 细胞系，基于 ENCODE 的 CAGE 数据（18,377 个蛋白编码基因）。
对比基线：Enformer, HyenaDNA, Mamba, Caduceus, EPInformer, Seq2Exp (SOTA)。
主要指标：MSE (均方误差), MAE (平均绝对误差), Pearson Correlation (皮尔逊相关系数)。
性能表现：
- K562: Prism MSE 为 0.1789，优于 Seq2Exp-soft (0.1856) 和 Caduceus (0.2197)。
- GM12878: Prism MSE 为 0.1759，优于 Seq2Exp-soft (0.1873)。
- 在所有指标上，Prism 均表现出鲁棒的提升，且标准差较小。
消融实验：
- 背景状态数量 ( $n$ )： $n=2$ 或 $4$ 时效果最佳，证明了学习多种背景状态的必要性。
- 干预权重 ( $\alpha$ )： $\alpha=1.0$ 时效果最好，过高的权重会导致性能下降。
- 信号移除测试：在测试阶段移除背景信号（如 Hi-C）会导致基于全信号训练的模型性能严重下降，验证了模型对背景信号的过度依赖（即混淆效应），而 Prism 通过干预机制缓解了这一问题。
扩展实验：
- 在 H1 细胞系上同样取得了 SOTA 结果。
- 引入额外信号（如 H3K4me3）后，Prism 依然保持领先，证明其框架对不同信号组合的鲁棒性。
- 混合细胞类型训练（Mixed-training）也能达到与单细胞类型训练相当的性能。

5. 意义与结论 (Significance)

范式转变：该工作挑战了“序列越长越好”的直觉，指出在基因表达预测中，信号的质量（多模态整合）和因果建模比序列长度更重要。
因果可解释性：通过显式建模背景染色质状态并应用后门调整，Prism 不仅提高了预测精度，还增强了模型的可解释性，使其能够区分真实的调控信号和背景噪声。
实际应用价值：
- 计算效率：使用短序列大幅降低了计算成本，使得在资源受限场景下的高精度预测成为可能。
- 生物医学应用：为理解细胞特异性基因调控、疾病机制发现以及个性化治疗策略提供了更精准的工具。
未来方向：该方法为处理生物数据中的混淆变量提供了新的思路，可推广至其他基因组学任务（如变异效应预测）。

总结：Prism 通过引入因果推断机制，巧妙地解决了多模态表观基因组数据中的背景混淆问题，证明了在短序列下通过精细的信号整合即可实现超越长序列模型的基因表达预测性能，是生物深度学习领域的一项重要进展。