A Convolutional Deep Learning Approach to identify DNA Sequences for Gene Prediction
本文提出了一种基于卷积神经网络(CNN)和 TF-IDF 向量化的高效深度学习框架,利用人类基因组 GRCh38 数据成功实现了高精度的基因预测,其性能指标达到了该领域的最先进水平。
766 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
本文提出了一种基于卷积神经网络(CNN)和 TF-IDF 向量化的高效深度学习框架,利用人类基因组 GRCh38 数据成功实现了高精度的基因预测,其性能指标达到了该领域的最先进水平。
该研究通过模拟数据、物种混合及基因型混合实验,系统评估了七种主流去污染方法,发现虽无单一方法在所有场景下均表现最优,但 CellBender、DecontX 和 SoupX 整体性能较为出色。
本文介绍了 DGIdb 模型上下文协议(MCP)服务器,该工具通过允许大语言模型直接访问 DGIdb API,使用户能够以自然语言查询药物 - 基因相互作用数据,从而显著提升了模型获取准确且最新的生物医学知识的能力。
该研究提出了一种结合在线狄利克雷过程混合模型先验的自适应聚类计数自编码器,通过显著优化单细胞数据的潜在空间几何结构(如簇紧凑性和分离度),揭示了其在轨迹分析、流形可视化和程序级注释等任务中优于传统标签恢复指标的应用价值。
本文提出了 Topic-FM 模型,通过结合受单纯形约束的神经主题变分自编码器与流场细化技术,在无需牺牲标签一致性的前提下显著提升了单细胞转录组数据的聚类性能与基因程序的可解释性。
该研究通过对 237 名参与者的 28 年纵向血清样本进行非靶向代谢组学分析,揭示了肉碱、磷脂酰胆碱、饮食来源化合物(如胡椒碱)及药物代谢物(如美托洛尔)等特定代谢特征与认知韧性之间的显著关联,为理解衰老过程中认知韧性的分子机制提供了新的生物标志物和线索。
该研究通过整合 RNA 表达、基因属性及亚细胞定位构建机器学习框架,发现亚细胞定位是预测癌症中蛋白质可检测性的关键因素,并揭示了广泛存在的、具有特定生物学意义的转录组与蛋白质组不协调现象。
本文介绍了 CROWN,这是一个通过自动化预处理流程(包含独特的能量最小化步骤)从 PLInder 数据库中构建的大规模、高质量且多样化的蛋白质 - 配体相互作用数据集,旨在解决现有数据在结构可靠性与覆盖范围之间的权衡问题,并为机器学习模型训练提供以几何结构为核心的无偏资源。
本文构建了首个 OpenClaw 科学生态系统数据集并推出了 Claw4Science 平台,旨在解决该生态的碎片化问题,通过统一组织 91 个项目和 2,230 项技能来促进科学 AI 代理的模块化发展、标准化评估及基础设施构建。
该研究针对基因组预测中数据污染对随机森林模型的负面影响,提出并评估了多种稳健化策略,发现数据变换(特别是基于排序的方法)是最有效且通用的解决方案,并明确了在存在污染风险时应将稳健随机森林作为标准模型的补充或首选。