RNAElectra: An ELECTRA-Style RNA Foundation Model for RNA Regulatory Inference
本文提出了名为 RNAElectra 的 RNA 基础模型,该模型利用 ELECTRA 风格的替换令牌检测(RTD)预训练策略替代传统的掩码语言建模,在无需任务特定架构的情况下实现了单核苷酸分辨率的 RNA 调控推断,并在结构、相互作用及定量调控等多个基准任务中展现出优于现有基线的泛化能力与可解释性。
768 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
本文提出了名为 RNAElectra 的 RNA 基础模型,该模型利用 ELECTRA 风格的替换令牌检测(RTD)预训练策略替代传统的掩码语言建模,在无需任务特定架构的情况下实现了单核苷酸分辨率的 RNA 调控推断,并在结构、相互作用及定量调控等多个基准任务中展现出优于现有基线的泛化能力与可解释性。
本文介绍了 ATOMICA,一种基于几何深度学习的通用模型,它通过训练超过 200 万种复合物数据,成功构建了涵盖蛋白质、小分子、金属离子、脂质和核酸五种模态的原子级相互作用表示,并在结构功能预测、暗蛋白质组配体发现及实验验证中展现出卓越性能。
该研究整合了 AlphaFold 和 ESMatlas 的预测数据构建了包含 8.2 亿条记录的 AFESM 数据集,通过聚类分析揭示了 512 万个结构簇,并从中发现了 12 种全新结构折叠及 11,941 种未见过的结构域组合,凸显了宏基因组数据在探索蛋白质结构宇宙未开发区域中的关键价值。
本文介绍了 BiOS(生物多样性观测系统),这是一个遵循 FAIR 原则的开源模块化框架,通过解耦后端数据管理与前端展示层,提供 API 和可视化界面,有效整合了从分类学到遗传学等异构生物多样性数据,以解决数据碎片化问题并促进协作保护。
本文提出了 SC-BIG,一种利用批量测序数据、通过分层贝叶斯模型联合估计癌症细胞分数并量化不确定性的新方法,从而显著提高了单细胞测序中体细胞单核苷酸变异检测的准确性。
该研究通过构建包含 63 个真实组织切片和 1000 多个半合成数据集的综合性基准,系统评估了 26 种空间域检测方法,揭示了数据分辨率和细胞异质性对性能的关键影响,并提出了一个模块化基准框架以指导未来工具的优化与选择。
本文提出了一种名为 ITEC 的全无监督迭代追踪与纠错方法,能够以超过 99.7% 的精度从海量数据中自动重建跨物种(如斑马鱼、小鼠和果蝇)胚胎的完整细胞谱系与命运图谱,从而为解析发育动力学提供了强有力的平台。
本研究开发了名为 scPloidyR 的隐马尔可夫模型,通过联合建模 Tapestri 单细胞靶向测序中的读段深度和 B 等位基因频率信号,显著提升了拷贝数变异的检测精度,并证明了在具备等位基因信息时该方法优于仅依赖深度的现有工具,而在缺乏该信息时深度单一模型则更为适用。
该研究提出了一种兼容 Gymnasium 的抗生素耐药性模拟框架,并通过多场景实验证实,在部分可观测和延迟反馈的复杂环境下,分层强化学习结合风险分层信息能比传统固定规则更有效地优化抗生素处方策略并控制耐药性。
该论文提出利用共形预测技术为液相色谱 - 串联质谱数据中的分子检索构建具有特定可靠性的预测集,从而在分布内及分布偏移场景下,将传统的候选分子排序转化为具有明确可靠性保证的谱图特异性候选集合。