Calibration of in-frame indel variant effect predictors for clinical variant classification
该研究通过构建高置信度数据集并应用统计框架,为八种框内插入缺失(indel)预测工具建立了符合 ACMG/AMP 指南的临床分类阈值,证实了其在临床变异解读中的价值,但也指出其性能仍低于错义变异预测工具,亟需进一步改进。
1235 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
该研究通过构建高置信度数据集并应用统计框架,为八种框内插入缺失(indel)预测工具建立了符合 ACMG/AMP 指南的临床分类阈值,证实了其在临床变异解读中的价值,但也指出其性能仍低于错义变异预测工具,亟需进一步改进。
这项基于 658 名免疫治疗患者的泛癌研究指出,在异质性队列中,临床变量主导了生存预测模型的性能,而基因组特征(如肿瘤突变负荷)的整合仅带来有限的增量收益,揭示了将基因组数据融入跨癌种预后模型的结构性局限。
本文介绍了 immuneML 的最新发布,通过提供统一的无监督机器学习框架(涵盖聚类、生成建模、语言模型嵌入及可视化等功能),解决了适应性免疫受体领域缺乏统一分析工具的问题,并通过三个实际用例验证了其在生物标志物发现、模型评估及数据质量检查中的有效性。
该研究开发了 LagCI 计算框架,通过结合全面的滞后相关性分析与鲁棒的统计过滤机制,成功从稀疏采样难以应对的密集多组学时间序列数据中推断出具有生物学意义的时序因果关系,并构建了包含数千分子与数十万预测相互作用的定向调控网络。
该研究通过引入空间结构证明,将碎片化景观中各斑块(或独立模拟)的微生物丰度进行聚合,能够解释为何观测到的微生物群落物种丰度分布符合伽马分布,从而揭示了空间粗粒化效应在塑造微生物宏观生态模式中的核心作用。
该研究揭示了 16S rRNA 的 k-mer 组成与基因组功能之间存在直接关联,并据此开发了无需分类学注释即可直接从 16S rRNA 序列预测微生物功能潜力的深度学习框架 embeRNA,该方法在未知微生物环境及土壤宏基因组数据中均展现出优于传统参考方法的性能。
该研究提出了一种基于汤普森采样的主动学习策略,利用 AlphaFold 进行高效筛选,仅需少量查询即可从大规模肽库中识别出大部分结合体,显著提升了针对 BET 蛋白 ET 结构域等相互作用网络的探索效率。
该论文通过构建包含 61,000 多个自包含 RNA 单元(SCRUs)的大规模数据库,提出了直接预测模型 SCRU-Seq 和迭代扩散模型 SCRU-Diff,有效克服了现有 RNA 序列设计方法因高分辨率结构数据稀缺而导致的效率瓶颈,实现了兼具高保真度与可扩展性的 RNA 序列生成。
本文介绍了 NetSyn 工具,该工具通过基于蛋白质基因组上下文(即基因共线性)的保守性而非单纯的序列相似性来构建网络并聚类,从而有效识别同功亚家族、发现非同源酶之间的功能关联,并辅助预测新的基因组结构及修正注释错误。
该论文通过提出旨在提升评估公平性与可扩展性的无监督评分框架 ViScore,以及具备多尺度结构保持能力和可解释性的深度学习模型 ViVAE,显著增强了单细胞转录组数据降维嵌入的可信度。