FM-GPT: Bayesian fine mapping for phenome-wide transcriptome-wide association studies
本文提出了名为 FM-GPT 的新型贝叶斯精细定位方法,用于在表型组范围转录组关联分析中整合多种相关表型以识别因果基因,该方法通过基因引导的降维有效区分了真实因果效应与连锁不平衡引起的假信号,并在 UK Biobank 数据中成功揭示了影响大脑皮层厚度及多系统疾病的共享生物学机制。
1235 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
本文提出了名为 FM-GPT 的新型贝叶斯精细定位方法,用于在表型组范围转录组关联分析中整合多种相关表型以识别因果基因,该方法通过基因引导的降维有效区分了真实因果效应与连锁不平衡引起的假信号,并在 UK Biobank 数据中成功揭示了影响大脑皮层厚度及多系统疾病的共享生物学机制。
本研究利用 Stereo-seq 平台构建了涵盖 10 种小鼠器官、包含 23 个组织切片的统一空间转录组数据集,提供了单细胞分辨率及细胞类型注释,为空间转录组学的方法开发、基准测试和多模态分析提供了标准化资源。
本文提出了 scMultiPreDICT 框架,利用单细胞多组学数据系统评估并比较了转录组与表观遗传特征对基因表达的预测能力,揭示了不同调控层在特定基因和细胞背景下的贡献差异,并发现多模态整合并不总能提升预测精度。
本文介绍了 LYM-1,这是首个利用涵盖 10 种作物、23 年及 470 万条观测数据的大规模数据集构建的多作物产量预测模型,旨在通过整合气象与土壤数据来解析基因、环境与管理的复杂交互,从而优化加拿大西部地区的作物生产并辅助育种设计。
该研究通过整合家庭自采干血斑样本与未靶向代谢组学技术,在包含 1,257 名参与者的 18,288 个样本的大规模验证中,利用批次感知归一化和用户级多数投票策略,成功实现了 94.1% 的个体识别准确率,证实了该方法在构建数字孪生及纵向样本关联中的巨大潜力。
该研究通过构建 Snakemake 流程,在临床肿瘤单样本高深度扩增子测序数据上评估了六种开源体细胞变异检测工具的性能,发现 FreeBayes、VarScan、MuTect2 和 Pisces 在 HD789 参考标准数据上表现最佳,但 FreeBayes 虽检出变异最多却伴随更多潜在假阳性。
该研究基于 208 组光学熔解实验,开发了一套包含 1-甲基假尿苷修饰的 RNA 折叠最近邻参数,证实该修饰能稳定 RNA 结构并显著提升了 tRNA 等序列的二级结构预测精度,且该参数已集成至 RNAstructure 软件中。
本文介绍了 IDiom,一种基于 3700 万条无序蛋白序列训练的自回归语言模型,它能够生成具有生物相关特征且可响应亚细胞定位奖励的无序蛋白序列,从而为无序蛋白的生成式设计提供了通用平台。
本文提出了一种基于图卷积网络的并行多分支深度学习模型,通过引入连接注意力块从扩散磁共振成像衍生的脑结构连接图中提取特征,在 PREVENT-AD 和 OASIS3 数据集上实现了优于现有方法的年龄和认知障碍(MMSE)预测性能。
该论文提出了一种名为 SimpleFold-Turbo 的自适应推理缓存方法,通过将视频扩散领域的 TeaCache 技术应用于流匹配蛋白质结构预测,在无需重新训练或修改权重的情况下,利用生成轨迹的冗余性跳过约 93% 的前向传播,从而在保持结构预测质量的同时实现了 9 至 14 倍的推理加速。