HAETAE: A highly accurate and efficient epigenome transformer for tissue-specific histone modification prediction
HAETAE 是一种将长读长测序中的 5-甲基胞嘧啶整合为 5 碱基框架的新型表观基因组 Transformer,它通过显式建模表观遗传上下文,以极少的参数实现了组织特异性组蛋白修饰预测的超高精度,并揭示了 TERT 启动子突变在不同组织中的差异化调控机制。
1246 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
HAETAE 是一种将长读长测序中的 5-甲基胞嘧啶整合为 5 碱基框架的新型表观基因组 Transformer,它通过显式建模表观遗传上下文,以极少的参数实现了组织特异性组蛋白修饰预测的超高精度,并揭示了 TERT 启动子突变在不同组织中的差异化调控机制。
该研究提出了一种基于距离的无监督异常评分方法,利用抗原特异性 TCR 在 V 基因簇中倾向于分布于边缘而非中心的特征,成功识别出包括单克隆频率在内的低频抗原特异性 TCR,其检测准确率显著优于现有的基于相似性或频率的传统方法。
该论文提出了一种结合 WHO 风险等级先验与马尔可夫链模型的贝叶斯框架,通过将生物安全风险量化为对数标度并支持动态更新,实现了实验室风险管理从静态合规评估向基于证据的动态资源分配的转变。
该研究提出了一种结合高分辨率数据非依赖性采集(DIA)与低成本仪器全扫描(MS1)数据的创新工作流程,通过机器学习模型实现了对尿路感染病原体的快速、无培养且高准确率的临床诊断。
本文提出了首个专为水生类群设计的基因组基础模型 FishMamba-1,该模型基于线性复杂度的 Mamba 架构,利用 24 种鲤形目物种构建的大规模数据集进行预训练,能够高效处理长序列并实现高精度的基因结构注释,从而为解析多倍体鱼类基因组提供了可扩展的开源解决方案。
本文介绍了一种名为 CESAR 的新型计算工具,它通过分段与锚点重校准技术,显著提高了在肿瘤 DNA 含量极低(<1%)的液体活检中检测拷贝数变异(CNV)的灵敏度与稳定性,其性能优于现有的 CNVkit 工具。
本文介绍了 MESSI,一个基于 Nextflow 的可重复多模态整合方法基准测试框架,该框架通过标准化流程和公平评估策略,对多种整合方法在预测性能、生物学可解释性及计算效率方面进行了系统评估,结果表明没有单一方法在所有场景下均最优,方法选择需根据具体目标进行权衡。
本文介绍了 BICEP 模型的扩展版本,该版本通过引入针对插入缺失(indels)和拷贝数变异(CNVs)的新先验模型,实现了对家系分析中罕见致病变异的更全面的贝叶斯推断,并验证了其性能与原有单核苷酸变异模型相当。
该论文提出了名为 CellDEEP 的新工具,通过采用灵活的细胞聚合(元细胞)策略,在单细胞 RNA 测序差异表达分析中有效平衡了假阳性控制与检测灵敏度,从而显著提升了分析结果的可靠性。
该研究通过对 22 种作物的分析证实,古代全基因组复制产生的古老同源基因(尤其是单拷贝基因)在驯化候选基因中显著富集,表明古代多倍化事件为作物驯化提供了持久的基因组基础,且基因拷贝数回归单拷贝状态并未阻碍其功能上的适应性选择。