Systematic contextual biases in SegmentNT potentially relevant to other nucleotide transformer models
本文识别并表征了 SegmentNT 核苷酸 Transformer 模型中系统性的上下文偏差——具体涉及输入序列长度、核苷酸位置以及与分词相关的 24 核苷酸周期性振荡——并提出标准化方法以提升预测一致性并指导类似基因组模型的使用。
756 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
本文识别并表征了 SegmentNT 核苷酸 Transformer 模型中系统性的上下文偏差——具体涉及输入序列长度、核苷酸位置以及与分词相关的 24 核苷酸周期性振荡——并提出标准化方法以提升预测一致性并指导类似基因组模型的使用。
MilliMap 是一个交互式框架,它统一了统计计算与空间探索,以实现对空间组学数据的闭环迭代分析,使研究人员能够在单一环境中优化参数并验证发现,其应用范围涵盖从神经解剖学到肿瘤微环境。
本文介绍了 SenNet 数据门户,这是一个可扩展的混合云平台,提供对经过协调的多模态、多组织数据集及分析工具的开放访问,旨在系统性地表征人类和小鼠衰老模型中的细胞衰老,以支持衰老研究。
这项基准研究挑战了“更大的人工智能模型在药物发现中普遍优于较小模型”的假设,证明与大型基础模型相比,紧凑且专业化的模型在多种分子性质和活性任务中往往能实现更优或相当的预测准确性。
AnnotateMissense 是一个可扩展的框架,它整合了多样化的基因组和蛋白质语言模型特征,用于对超过 9000 万个错义变异进行基准测试并生成高性能的致病性预测,其基于 132,714 个 ClinVar 标注变异训练的 XGBoost 模型实现了卓越的准确性。
作者开发了结构新颖性指数(SNI),这是一个由人工智能驱动的框架,成功识别并实验验证了NRC免疫受体的一种意外存在的十一聚体组装体,从而证明了一种可扩展的方法,可用于发现超越经典架构的非典型蛋白复合物。
本文提出了一种利用大语言模型和对比学习来表征 SARS-CoV-2 刺突蛋白序列的无监督框架,该框架在预测新兴变异株方面展现出优于以往方法的聚类性能。
本文介绍了 cryoPANDA,这是一个包含来自 252 项不同实验的超过 3700 万个已标注冷冻电镜颗粒的庞大数据集,旨在克服当前的数据局限并加速结构生物学中数据驱动方法的开发。
本文提出了一种完全数据驱动的子空间单类分类框架,该框架通过建模健康血浆蛋白质组谱来稳健地检测多种疾病,而无需患病训练样本,从而克服了高维临床数据中的类别不平衡挑战。
本文介绍了 LCBio 在 CASP16 中的一项案例研究,表明尽管专家引导的工作流程在 RNA 多聚体预测中能够取得具有竞争力的排名,但现有方法在准确性上呈现出层级式下降,即由于在建模多螺旋连接处和非经典相互作用方面持续存在挑战,可靠的局部特征无法转化为精确的全局结构。