DeepTrio: Variant Calling in Families Using Deep Learning
DeepTrio 是一种利用深度学习直接从家系序列数据中学习并自动权衡测序误差、映射误差及新生突变率的变异检测工具,其在 Illumina 和 PacBio HiFi 数据上的表现优于 DeepVariant,尤其在低覆盖度场景下具有显著优势。
766 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
DeepTrio 是一种利用深度学习直接从家系序列数据中学习并自动权衡测序误差、映射误差及新生突变率的变异检测工具,其在 Illumina 和 PacBio HiFi 数据上的表现优于 DeepVariant,尤其在低覆盖度场景下具有显著优势。
本研究利用两个玉米 NAM 数据集评估了三种权重优化方法(线性变换、Nelder-Mead 和贝叶斯)在加权集成基因组预测模型中的应用,结果表明这些方法在权重显著偏离等权时能提升预测性能,但各优化策略之间未表现出明显的优劣差异。
本文提出了可解释的通用预训练细胞仪 Transformer(GPCT)框架,通过针对异质性标记面板的预训练策略,实现了流式细胞术数据在样本级预测任务中的高泛化性能与生物学可解释性,标志着流式细胞术基础模型的重要突破。
本文提出了方向增强评分势(DESPOT),这是一种将各向同性知识势扩展为各向异性概率框架的新方法,通过引入原子类型特定的局部参考系和空位状态来显式建模方向偏好与立体排斥,从而在姿态评分和虚拟筛选任务中显著优于传统方法。
本文提出了一种名为 TRACE 的轻量级多模态框架,通过引入 CLIP 风格的实体内对比对齐机制,有效解决了 TCR-肽段结合预测中因结构数据噪声导致的多模态融合失效问题,证明了在生物信息学应用中,通过约束模态交互优化比单纯增加模态更能提升模型的鲁棒性与性能。
该研究开发了一种名为 MAPPER 的多模态预测框架,通过分析大肠杆菌的蛋白质组学、化学结构及生长动态等多维度数据,实现了对抗生素作用机制的准确分类及新机制化合物的识别,从而助力新型抗菌候选药物的优先筛选。
本文介绍了 EMITS,一种基于 Rust 开发的期望最大化(EM)算法工具,旨在通过迭代解析长读长真菌 ITS 扩增子测序中的模糊比对,解决传统最佳匹配分类法导致的物种丰度误判问题,从而提供高精度的物种水平丰度估计。
本研究提出了一种基于 TF-IDF k-mer 特征与随机森林-SVM 混合框架的 SARS-CoV-2 变异分类方法,在高度不平衡的基因组数据中显著优于深度学习模型,实现了对稀有变异的高精度检测与稳健泛化。
该研究通过系统评估 86 种遗传力估计配置对 10 种表型的影响,发现尽管不同策略导致的遗传力估计值差异巨大,但这种上游变异对下游多基因风险评分(PRS)的预测性能影响甚微,表明遗传力应被视为对配置敏感的建模参数而非通用稳定指标。
该研究通过结合新型强度剂量生物测定数据,建立了一个新的数学模型,能够更准确地预测非洲野生蚊子种群中杀虫剂抗性异质性对经杀虫剂处理蚊帐实际防护效果的影响,从而为评估抗性监测结果对疟疾公共卫生的影响提供了更精细的机制性理解。