q-bio.GN 篇论文 | Gist.Science

Quantifying Memorization and Privacy Risks in Genomic Language Models

该论文提出了一种整合困惑度检测、金丝雀序列提取和成员推断的多向量隐私评估框架，系统量化了基因组语言模型在不同架构和训练条件下的记忆化风险，揭示了单一攻击手段的局限性并强调了多向量审计的必要性。

Alexander Nemecek, Wenbiao Li, Xiaoqian Jiang, Jaideep Vaidya, Erman AydayWed, 11 Ma🤖 cs.LG

Controllable Sequence Editing for Biological and Clinical Trajectories

该论文提出了 CLEF 模型，通过学习编码干预时机与作用范围的时间概念，实现了对生物及临床纵向轨迹中特定变量在特定时刻的可控编辑与反事实生成，显著优于现有最先进方法。

Michelle M. Li, Kevin Li, Yasha Ektefaie, Ying Jin, Yepeng Huang, Shvat Messica, Tianxi Cai, Marinka ZitnikTue, 10 Ma🤖 cs.LG

How Private Are DNA Embeddings? Inverting Foundation Model Representations of Genomic Sequences

该研究揭示了 DNA 基础模型生成的嵌入表示（尤其是 per-token 嵌入）存在严重隐私风险，攻击者可通过模型反演攻击近乎完美地重建原始基因组序列，从而表明在嵌入即服务（EaaS）框架广泛部署前亟需加强隐私保护设计。

Sofiane Ouaari, Jules Kreuer, Nico PfeiferTue, 10 Ma🤖 cs.LG

Adversarial Domain Adaptation Enables Knowledge Transfer Across Heterogeneous RNA-Seq Datasets

该研究提出了一种基于对抗学习的深度域适应框架，通过构建域不变潜在空间，有效克服了 RNA-seq 数据预处理差异和表型异质性带来的挑战，实现了从大规模通用数据集向小规模特定数据集的知识迁移，显著提升了数据稀缺场景下的癌症及组织类型分类精度。

Kevin Dradjat, Massinissa Hamidi, Blaise HanczarTue, 10 Ma🤖 cs.LG

Estimating Reproducibility in Genome-Wide Association Studies

该论文提出了可重复率（RR）和假不可重复率（FIR）两个概率指标，用于定量评估全基因组关联研究（GWAS）中主要发现的可重复性及不可重复结果中潜在的真阳性，并给出了相应的估计方法。

Wei Jiang, Jing-Hao Xue, Weichuan YuThu, 12 Ma📊 stat

Controlling the joint local false discovery rate is more powerful than meta-analysis methods in joint analysis of summary statistics from multiple genome-wide association studies

该论文提出了一种基于联合局部错误发现率（Jlfdr）控制的汇总统计量联合分析新方法，证明其在控制错误发现率的前提下比传统荟萃分析方法具有更高的统计功效，尤其适用于处理多个全基因组关联研究中的异质数据。

Wei Jiang, Weichuan YuThu, 12 Ma📊 stat

pHapCompass: Probabilistic Assembly and Uncertainty Quantification of Polyploid Haplotype Phase

本文提出了名为 pHapCompass 的概率性多倍体单倍型组装算法，该算法通过显式建模读段分配歧义性来量化相位不确定性，并配套开发了针对自交和异源多倍体的真实基因组模拟工作流及评估指标，从而在复杂多倍体基因组中实现了具有竞争力的组装性能与准确的相位不确定性量化。

Marjan Hosseini (School of Computing, University of Connecticut), Ella Veiner (School of Computing, University of Connecticut), Thomas Bergendahl (School of Computing, University of Connecticut), Tala Yasenpoor (School of Computing, University of Connecticut), Zane Smith (Department of Entomology and Plant Pathology, University of Tennessee), Margaret Staton (Department of Entomology and Plant Pathology, University of Tennessee), Derek Aguiar (School of Computing, University of Connecticut, Institute for Systems Genomics, University of Connecticut)Thu, 12 Ma🧬 q-bio

Omics Data Discovery Agents

该论文提出了一种基于大语言模型智能体的框架，通过自动化检索、提取和重新分析生物医学文献中的多组学数据，将静态文献转化为可执行、可查询的资源，从而实现了大规模的数据重用与跨研究比较。

Alexandre Hutton, Jesse G. MeyerThu, 12 Ma🧬 q-bio

Discovery of a Hematopoietic Manifold in scGPT Yields a Method for Extracting Performant Algorithms from Biological Foundation Model Internals

该研究通过机械可解释性方法，从单细胞基础模型 scGPT 中提取并验证了一个紧凑的造血算法，该算法在无需目标数据集重训练的情况下，在发育分支结构解析和细胞亚型分类等任务上显著优于现有主流方法，并揭示了其内部由特定基因程序构成的核心机制。

Ihor KendiukhovThu, 12 Ma🧬 q-bio

SNPgen: Phenotype-Supervised Genotype Representation and Synthetic Data Generation via Latent Diffusion

该论文提出了 SNPgen，一种基于潜在扩散模型的两阶段条件生成框架，能够生成与表型对齐的合成基因型数据，在保护隐私的同时实现了与真实数据相当的疾病预测性能，并有效保留了遗传结构特征。

Andrea Lampis, Michela Carlotta Massi, Nicola Pirastu, Francesca Ieva, Matteo Matteucci, Emanuele Di AngelantonioThu, 12 Ma🧬 q-bio

Continuous Diffusion Transformers for Designing Synthetic Regulatory Elements

该论文提出了一种参数高效的连续扩散 Transformer 模型，通过引入 2D CNN 输入编码器替代传统 U-Net 骨干网络，在显著降低训练成本、收敛损失及序列记忆化风险的同时，结合 DDPO 微调与 Enformer 奖励模型，成功生成了具有高预测活性的细胞类型特异性合成调控 DNA 序列。

Jonathan Liu, Kia GhodsThu, 12 Ma🧬 q-bio

TrinityDNA: A Bio-Inspired Foundational Model for Efficient Long-Sequence DNA Modeling

本文提出了 TrinityDNA，一种融合生物结构特征（如 Groove Fusion 和门控反向互补机制）、多尺度注意力机制及进化训练策略的新型 DNA 基础模型，旨在高效解决长序列基因组建模挑战，并在基因功能预测等应用中显著提升性能，同时引入了新的长序列 CDS 注释基准以完善评估体系。

Qirong Yang, Yucheng Guo, Zicheng Liu, Yujie Yang, Qijin Yin, Siyuan Li, Shaomin Ji, Linlin Chao, Xiaoming Zhang, Stan Z. LiMon, 09 Ma💻 cs

LA-MARRVEL: A Knowledge-Grounded, Language-Aware LLM Framework for Clinically Robust Rare Disease Gene Prioritization

本文提出了 LA-MARRVEL 框架，这是一种基于知识且具备语言感知能力的临床级大语言模型系统，它通过构建富含表型的结构化提示，在罕见病致病基因优先排序任务中显著提升了召回率，并能生成符合 ACMG 标准的可审计临床推理。

Jaeyeon Lee, Lin Yao, Hyun-Hwan Jeong, Zhandong LiuMon, 09 Ma🤖 cs.AI

Validating Interpretability in siRNA Efficacy Prediction: A Perturbation-Based, Dataset-Aware Protocol

该论文提出了一种基于扰动和数据集感知的验证协议，用于在 siRNA 疗效预测中评估可解释性（显著性图）的可靠性，揭示了现有模型在跨数据集部署时可能存在的“忠实但错误”或“显著性倒置”等失效模式，并引入生物先验正则化（BioPrior）以增强显著性图的忠实度，从而为解释引导的治疗设计确立了必要的预部署验证实践。

Zahra Khodagholi, Niloofar YousefiMon, 09 Ma🤖 cs.LG

What Topological and Geometric Structure Do Biological Foundation Models Learn? Evidence from 141 Hypotheses

该研究通过 AI 驱动的自主大规模假设筛选，证实了生物基础模型（如 scGPT 和 Geneformer）在单细胞基因表达数据中确实学习到了具有生物学意义的非平凡几何与拓扑结构，且这种结构在不同独立训练的模型间表现出全局一致性，但在不同组织类型中的信号强度存在显著差异。

Ihor KendiukhovMon, 09 Ma🤖 cs.LG

Machine Learning for analysis of Multiple Sclerosis cross-tissue bulk and single-cell transcriptomics data

该研究开发了一种端到端的机器学习流程，整合了多组织（外周血和脑脊液）的批量及单细胞转录组数据，利用 XGBoost 分类器和 SHAP 可解释性分析成功区分多发性硬化症患者与健康对照，并揭示了包括非经典免疫检查点、脂质运输及 EB 病毒相关通路在内的关键致病机制和潜在生物标志物。

Francesco Massafra, Samuele Punzo, Silvia Giulia Galfré, Alessandro Maglione, Simone Pernice, Stefano Forti, Simona Rolla, Marco Beccuti, Marinella Clerico, Corrado Priami, Alina SîrbuMon, 09 Ma🤖 cs.LG

Extending Sequence Length is Not All You Need: Effective Integration of Multimodal Signals for Gene Expression Prediction

该论文提出 Prism 框架，通过利用背门调整有效整合多模态表观基因组信号以消除背景染色质状态的混杂效应，从而证明在基因表达预测任务中，优化多模态信号整合比单纯延长 DNA 序列长度更为关键，且能仅凭短序列实现最先进性能。

Zhao Yang, Yi Duan, Jiwei Zhu, Ying Ba, Chuan Cao, Bing SuFri, 13 Ma🧬 q-bio

q-bio.GN