Quantifying Memorization and Privacy Risks in Genomic Language Models
该论文提出了一种整合困惑度检测、金丝雀序列提取和成员推断的多向量隐私评估框架,系统量化了基因组语言模型在不同架构和训练条件下的记忆化风险,揭示了单一攻击手段的局限性并强调了多向量审计的必要性。
29 篇论文
该论文提出了一种整合困惑度检测、金丝雀序列提取和成员推断的多向量隐私评估框架,系统量化了基因组语言模型在不同架构和训练条件下的记忆化风险,揭示了单一攻击手段的局限性并强调了多向量审计的必要性。
该论文提出了 CLEF 模型,通过学习编码干预时机与作用范围的时间概念,实现了对生物及临床纵向轨迹中特定变量在特定时刻的可控编辑与反事实生成,显著优于现有最先进方法。
该研究揭示了 DNA 基础模型生成的嵌入表示(尤其是 per-token 嵌入)存在严重隐私风险,攻击者可通过模型反演攻击近乎完美地重建原始基因组序列,从而表明在嵌入即服务(EaaS)框架广泛部署前亟需加强隐私保护设计。
该研究提出了一种基于对抗学习的深度域适应框架,通过构建域不变潜在空间,有效克服了 RNA-seq 数据预处理差异和表型异质性带来的挑战,实现了从大规模通用数据集向小规模特定数据集的知识迁移,显著提升了数据稀缺场景下的癌症及组织类型分类精度。
该论文提出了可重复率(RR)和假不可重复率(FIR)两个概率指标,用于定量评估全基因组关联研究(GWAS)中主要发现的可重复性及不可重复结果中潜在的真阳性,并给出了相应的估计方法。
该论文提出了一种基于联合局部错误发现率(Jlfdr)控制的汇总统计量联合分析新方法,证明其在控制错误发现率的前提下比传统荟萃分析方法具有更高的统计功效,尤其适用于处理多个全基因组关联研究中的异质数据。
本文提出了名为 pHapCompass 的概率性多倍体单倍型组装算法,该算法通过显式建模读段分配歧义性来量化相位不确定性,并配套开发了针对自交和异源多倍体的真实基因组模拟工作流及评估指标,从而在复杂多倍体基因组中实现了具有竞争力的组装性能与准确的相位不确定性量化。
该论文提出了一种基于大语言模型智能体的框架,通过自动化检索、提取和重新分析生物医学文献中的多组学数据,将静态文献转化为可执行、可查询的资源,从而实现了大规模的数据重用与跨研究比较。
该研究通过机械可解释性方法,从单细胞基础模型 scGPT 中提取并验证了一个紧凑的造血算法,该算法在无需目标数据集重训练的情况下,在发育分支结构解析和细胞亚型分类等任务上显著优于现有主流方法,并揭示了其内部由特定基因程序构成的核心机制。
该论文提出了 SNPgen,一种基于潜在扩散模型的两阶段条件生成框架,能够生成与表型对齐的合成基因型数据,在保护隐私的同时实现了与真实数据相当的疾病预测性能,并有效保留了遗传结构特征。
该论文提出了一种参数高效的连续扩散 Transformer 模型,通过引入 2D CNN 输入编码器替代传统 U-Net 骨干网络,在显著降低训练成本、收敛损失及序列记忆化风险的同时,结合 DDPO 微调与 Enformer 奖励模型,成功生成了具有高预测活性的细胞类型特异性合成调控 DNA 序列。
本文提出了 TrinityDNA,一种融合生物结构特征(如 Groove Fusion 和门控反向互补机制)、多尺度注意力机制及进化训练策略的新型 DNA 基础模型,旨在高效解决长序列基因组建模挑战,并在基因功能预测等应用中显著提升性能,同时引入了新的长序列 CDS 注释基准以完善评估体系。
本文提出了 LA-MARRVEL 框架,这是一种基于知识且具备语言感知能力的临床级大语言模型系统,它通过构建富含表型的结构化提示,在罕见病致病基因优先排序任务中显著提升了召回率,并能生成符合 ACMG 标准的可审计临床推理。
该论文提出了一种基于扰动和数据集感知的验证协议,用于在 siRNA 疗效预测中评估可解释性(显著性图)的可靠性,揭示了现有模型在跨数据集部署时可能存在的“忠实但错误”或“显著性倒置”等失效模式,并引入生物先验正则化(BioPrior)以增强显著性图的忠实度,从而为解释引导的治疗设计确立了必要的预部署验证实践。
该研究通过 AI 驱动的自主大规模假设筛选,证实了生物基础模型(如 scGPT 和 Geneformer)在单细胞基因表达数据中确实学习到了具有生物学意义的非平凡几何与拓扑结构,且这种结构在不同独立训练的模型间表现出全局一致性,但在不同组织类型中的信号强度存在显著差异。
该研究开发了一种端到端的机器学习流程,整合了多组织(外周血和脑脊液)的批量及单细胞转录组数据,利用 XGBoost 分类器和 SHAP 可解释性分析成功区分多发性硬化症患者与健康对照,并揭示了包括非经典免疫检查点、脂质运输及 EB 病毒相关通路在内的关键致病机制和潜在生物标志物。
该论文提出 Prism 框架,通过利用背门调整有效整合多模态表观基因组信号以消除背景染色质状态的混杂效应,从而证明在基因表达预测任务中,优化多模态信号整合比单纯延长 DNA 序列长度更为关键,且能仅凭短序列实现最先进性能。
该研究通过严格物种留一验证揭示了基于 k-mer 的模型在跨物种抗菌素耐药性预测中的泛化局限,并提出利用 Evo-1 基础模型在稳定性边界附近的层提取嵌入,结合 MiniRocket 聚合局部激活模式而非全局池化,从而显著提升了跨物种耐药机制的预测泛化能力。
该论文针对单细胞基因表达生成模型评估中缺乏标准化框架的问题,提出了开源 Python 工具 GGE,通过提供可配置的分布度量及基于生物学动机(如差异表达基因和扰动效应)的评估方案,实现了公平比较与可复现的基准测试。
本文提出了 ELISA,一种可解释的混合生成式 AI 代理,它通过统一 scGPT 表达嵌入、BioBERT 语义检索和 LLM 解释,实现了无需原始计数矩阵即可直接在嵌入数据上进行交互式单细胞发现,并在细胞类型检索和生物学假设生成方面显著优于现有方法。