mRNA-GPT: A Generative Model for Full-Length mRNA Design and Optimization
本文介绍了 mRNA-GPT,这是一种基于 3000 万条天然序列预训练并结合强化学习(PPO)的生成模型,能够端到端地联合优化 mRNA 的 5' UTR、CDS 和 3' UTR 区域,从而在平衡半衰期与翻译效率等多目标约束下,生成优于现有方法的完整全长 mRNA 序列。
1238 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
本文介绍了 mRNA-GPT,这是一种基于 3000 万条天然序列预训练并结合强化学习(PPO)的生成模型,能够端到端地联合优化 mRNA 的 5' UTR、CDS 和 3' UTR 区域,从而在平衡半衰期与翻译效率等多目标约束下,生成优于现有方法的完整全长 mRNA 序列。
本研究提出了一种基于 TF-IDF k-mer 特征与随机森林-SVM 混合框架的 SARS-CoV-2 变异分类方法,在高度不平衡的基因组数据中显著优于深度学习模型,实现了对稀有变异的高精度检测与稳健泛化。
该研究通过系统评估 86 种遗传力估计配置对 10 种表型的影响,发现尽管不同策略导致的遗传力估计值差异巨大,但这种上游变异对下游多基因风险评分(PRS)的预测性能影响甚微,表明遗传力应被视为对配置敏感的建模参数而非通用稳定指标。
本文提出了 SEGUID v2,一种扩展的校验和方案,能够生成对方向、旋转及单双链、线性和环状生物序列均具有不变性的唯一标识符,并采用 Base64url 编码以增强其在文件名和 URL 中的兼容性。
该研究通过结合新型强度剂量生物测定数据,建立了一个新的数学模型,能够更准确地预测非洲野生蚊子种群中杀虫剂抗性异质性对经杀虫剂处理蚊帐实际防护效果的影响,从而为评估抗性监测结果对疟疾公共卫生的影响提供了更精细的机制性理解。
该论文提出了一种基于分裂式层次谱聚类及归一化割度量的方法,通过构建嵌套聚类树并利用互补子样本的一致性检验,实现了对单细胞 RNA-seq 数据聚类结果及其稳定性的评估。
本文提出了一种基于卷积神经网络(CNN)和 TF-IDF 向量化的高效深度学习框架,利用人类基因组 GRCh38 数据成功实现了高精度的基因预测,其性能指标达到了该领域的最先进水平。
本研究通过构建基于 MMSeqs2 加速 AlphaFold3 的高通量蛋白质复合物预测流程,系统筛选了 MIBiG 数据库中的数千个生物合成基因簇,成功揭示了其中隐藏的大规模蛋白质相互作用网络及潜在的功能性酶复合物,从而为解析未知生物合成途径提供了关键线索。
本文针对缺乏有效比较标准的现状,提出了一种基于编辑操作(如转移弧的增删及基树弧的收缩/扩展)的 LGT 网络度量方法,证明了其在无约束转移顺序下具有线性时间复杂度,而在有约束情况下为 NP 难问题并提供了基于层级的固定参数可解算法,且通过数值实验验证了其适用性。
该研究通过模拟数据、物种混合及基因型混合实验,系统评估了七种主流去污染方法,发现虽无单一方法在所有场景下均表现最优,但 CellBender、DecontX 和 SoupX 整体性能较为出色。