Adversarial Domain Adaptation Enables Knowledge Transfer Across Heterogeneous RNA-Seq Datasets

该研究提出了一种基于对抗学习的深度域适应框架,通过构建域不变潜在空间,有效克服了 RNA-seq 数据预处理差异和表型异质性带来的挑战,实现了从大规模通用数据集向小规模特定数据集的知识迁移,显著提升了数据稀缺场景下的癌症及组织类型分类精度。

Kevin Dradjat, Massinissa Hamidi, Blaise HanczarTue, 10 Ma🤖 cs.LG

Controlling the joint local false discovery rate is more powerful than meta-analysis methods in joint analysis of summary statistics from multiple genome-wide association studies

该论文提出了一种基于联合局部错误发现率(Jlfdr)控制的汇总统计量联合分析新方法,证明其在控制错误发现率的前提下比传统荟萃分析方法具有更高的统计功效,尤其适用于处理多个全基因组关联研究中的异质数据。

Wei Jiang, Weichuan YuThu, 12 Ma📊 stat

pHapCompass: Probabilistic Assembly and Uncertainty Quantification of Polyploid Haplotype Phase

本文提出了名为 pHapCompass 的概率性多倍体单倍型组装算法,该算法通过显式建模读段分配歧义性来量化相位不确定性,并配套开发了针对自交和异源多倍体的真实基因组模拟工作流及评估指标,从而在复杂多倍体基因组中实现了具有竞争力的组装性能与准确的相位不确定性量化。

Marjan Hosseini (School of Computing, University of Connecticut), Ella Veiner (School of Computing, University of Connecticut), Thomas Bergendahl (School of Computing, University of Connecticut), Tala Yasenpoor (School of Computing, University of Connecticut), Zane Smith (Department of Entomology and Plant Pathology, University of Tennessee), Margaret Staton (Department of Entomology and Plant Pathology, University of Tennessee), Derek Aguiar (School of Computing, University of Connecticut, Institute for Systems Genomics, University of Connecticut)Thu, 12 Ma🧬 q-bio

Discovery of a Hematopoietic Manifold in scGPT Yields a Method for Extracting Performant Algorithms from Biological Foundation Model Internals

该研究通过机械可解释性方法,从单细胞基础模型 scGPT 中提取并验证了一个紧凑的造血算法,该算法在无需目标数据集重训练的情况下,在发育分支结构解析和细胞亚型分类等任务上显著优于现有主流方法,并揭示了其内部由特定基因程序构成的核心机制。

Ihor KendiukhovThu, 12 Ma🧬 q-bio

TrinityDNA: A Bio-Inspired Foundational Model for Efficient Long-Sequence DNA Modeling

本文提出了 TrinityDNA,一种融合生物结构特征(如 Groove Fusion 和门控反向互补机制)、多尺度注意力机制及进化训练策略的新型 DNA 基础模型,旨在高效解决长序列基因组建模挑战,并在基因功能预测等应用中显著提升性能,同时引入了新的长序列 CDS 注释基准以完善评估体系。

Qirong Yang, Yucheng Guo, Zicheng Liu, Yujie Yang, Qijin Yin, Siyuan Li, Shaomin Ji, Linlin Chao, Xiaoming Zhang, Stan Z. LiMon, 09 Ma💻 cs

Validating Interpretability in siRNA Efficacy Prediction: A Perturbation-Based, Dataset-Aware Protocol

该论文提出了一种基于扰动和数据集感知的验证协议,用于在 siRNA 疗效预测中评估可解释性(显著性图)的可靠性,揭示了现有模型在跨数据集部署时可能存在的“忠实但错误”或“显著性倒置”等失效模式,并引入生物先验正则化(BioPrior)以增强显著性图的忠实度,从而为解释引导的治疗设计确立了必要的预部署验证实践。

Zahra Khodagholi, Niloofar YousefiMon, 09 Ma🤖 cs.LG

What Topological and Geometric Structure Do Biological Foundation Models Learn? Evidence from 141 Hypotheses

该研究通过 AI 驱动的自主大规模假设筛选,证实了生物基础模型(如 scGPT 和 Geneformer)在单细胞基因表达数据中确实学习到了具有生物学意义的非平凡几何与拓扑结构,且这种结构在不同独立训练的模型间表现出全局一致性,但在不同组织类型中的信号强度存在显著差异。

Ihor KendiukhovMon, 09 Ma🤖 cs.LG

Machine Learning for analysis of Multiple Sclerosis cross-tissue bulk and single-cell transcriptomics data

该研究开发了一种端到端的机器学习流程,整合了多组织(外周血和脑脊液)的批量及单细胞转录组数据,利用 XGBoost 分类器和 SHAP 可解释性分析成功区分多发性硬化症患者与健康对照,并揭示了包括非经典免疫检查点、脂质运输及 EB 病毒相关通路在内的关键致病机制和潜在生物标志物。

Francesco Massafra, Samuele Punzo, Silvia Giulia Galfré, Alessandro Maglione, Simone Pernice, Stefano Forti, Simona Rolla, Marco Beccuti, Marinella Clerico, Corrado Priami, Alina SîrbuMon, 09 Ma🤖 cs.LG

Extending Sequence Length is Not All You Need: Effective Integration of Multimodal Signals for Gene Expression Prediction

该论文提出 Prism 框架,通过利用背门调整有效整合多模态表观基因组信号以消除背景染色质状态的混杂效应,从而证明在基因表达预测任务中,优化多模态信号整合比单纯延长 DNA 序列长度更为关键,且能仅凭短序列实现最先进性能。

Zhao Yang, Yi Duan, Jiwei Zhu, Ying Ba, Chuan Cao, Bing SuFri, 13 Ma🧬 q-bio