CROWN: Curated Repository Of Well-resolved Noncovalent interactions
本文介绍了 CROWN,这是一个通过自动化预处理流程(包含独特的能量最小化步骤)从 PLInder 数据库中构建的大规模、高质量且多样化的蛋白质 - 配体相互作用数据集,旨在解决现有数据在结构可靠性与覆盖范围之间的权衡问题,并为机器学习模型训练提供以几何结构为核心的无偏资源。
1238 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
本文介绍了 CROWN,这是一个通过自动化预处理流程(包含独特的能量最小化步骤)从 PLInder 数据库中构建的大规模、高质量且多样化的蛋白质 - 配体相互作用数据集,旨在解决现有数据在结构可靠性与覆盖范围之间的权衡问题,并为机器学习模型训练提供以几何结构为核心的无偏资源。
本文介绍了 geneslator,一个旨在解决现有工具在数据一致性和工作流碎片化方面局限性的 R 语言包,它通过统一八种模式生物的基因标识符转换、同源基因映射及通路注释,为高通量测序数据的整合与功能分析提供了精确且可复现的框架。
本研究利用分子建模、蛋白对接及分子动力学模拟等计算方法,系统评估了不同连接肽设计对靶向胃肠道肿瘤标志物鸟苷酸环化酶 C(GUCY2C)的单链抗体片段(scFv)的折叠稳定性、结构组织及抗原结合能力的影响,从而为该类抗体片段的理性优化提供了结构指导框架。
本文介绍了 T-Rex,一款无需编程知识即可在本地标准化分析全外显子组测序家系数据、具备临床级精度并符合数据保护法规的跨平台桌面应用。
本文构建了首个 OpenClaw 科学生态系统数据集并推出了 Claw4Science 平台,旨在解决该生态的碎片化问题,通过统一组织 91 个项目和 2,230 项技能来促进科学 AI 代理的模块化发展、标准化评估及基础设施构建。
STAPLE 是一个模块化框架,通过整合空间转录组分析流程、统一数据结构并引入 AI 驱动的报告层,实现了从细胞分型到通讯分析的全自动、可重复且具备生物学解释性的端到端分析。
该研究提出了一种动态多模态框架,通过整合基因表达、纵向实验室指标及治疗史,显著提升了多发性骨髓瘤患者的生存预测精度,其性能优于现有基线模型并揭示了与疾病生物学一致的预后特征。
该研究针对基因组预测中数据污染对随机森林模型的负面影响,提出并评估了多种稳健化策略,发现数据变换(特别是基于排序的方法)是最有效且通用的解决方案,并明确了在存在污染风险时应将稳健随机森林作为标准模型的补充或首选。
本文提出了 SSPSPredictor,这是一种结合 ESM-2 序列信息与 GVP 结构信息的深度学习模型,能够准确预测具有折叠或无序结构的相分离蛋白及其驱动区域,并揭示了无序蛋白更易发生相分离以及致病突变与相分离倾向之间的关联。
该研究提出了名为 BulkMonSTR 的计算框架,通过结合 STR 特异性误差建模与机器学习分类,实现了从批量测序数据中高精度检测体细胞嵌合短串联重复序列突变,显著优于现有方法并为研究衰老和疾病中的 STR 突变贡献提供了可扩展的基础。