How Not to be Seen: Predicting Unseen Enzyme Functions using Contrastive Learning
该论文提出了一种名为 EnzPlacer 的对比学习算法,旨在通过预测缺失第四级 EC 编号的酶序列在已知功能空间中的位置,从而解决从序列预测酶功能这一难题。
768 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
该论文提出了一种名为 EnzPlacer 的对比学习算法,旨在通过预测缺失第四级 EC 编号的酶序列在已知功能空间中的位置,从而解决从序列预测酶功能这一难题。
本文提出了 BioGraphX-RNA,一种基于显式生物物理原理的通用图编码框架,通过融合冻结的 RiNALMo 嵌入与可解释的门控融合层,在实现 RNA 亚细胞定位预测最高精度的同时,揭示了不同 RNA 类型的结构依赖机制并显著降低了计算成本。
本文提出了一种基于贝叶斯框架的取向估计方法(以最小均方误差估计器为例),该方法在低信噪比条件下显著优于传统互相关方法,不仅提升了三维重构的精度与鲁棒性,还有效推动了连续结构异质性分析的发展。
本文提出了一种名为 O_SCPLOWARCANEC_SCPLOW 的新算法及命令行工具,通过结合基于 Fourway 方法的 k-mer 发现技术来优化条形码纠错、读段映射和 UMI 解析,从而在单细胞转录组数据中实现比现有工具更快速且结果相当的高效基因表达定量。
该论文提出了一种名为 ProtBFF 的编码器无关框架,通过交叉嵌入注意力机制将可解释的生物物理先验知识注入蛋白质嵌入表示中,从而显著提升了预测的准确性与可靠性,使通用编码器在性能上超越了现有的专用模型。
该研究构建了首个包含超过 1800 万张谱图的全面顶向下质谱谱库 TopRepo,不仅实现了跨数据集的蛋白质组特征分析,还显著提升了蛋白质组鉴定精度并支持了深度学习模型的训练。
本文提出了 CellAwareGNN,一种将单细胞基因组数据整合到增强版生物医学知识图谱(scPrimeKG)中的图基础模型,通过引入细胞类型特异性上下文显著提升了药物适应症预测的准确性与生物学可解释性,特别是在自身免疫疾病领域表现优异。
MetaTracer 是一款基于核苷酸比对的高分辨率框架,能够单次运行将宏转录组测序读段同时分配至特定微生物物种和表达基因,从而在保持物种级分辨率的同时实现基因表达与物种的精准关联。
本研究提出了一种可解释的时间分辨逆建模框架,通过分层处理 RNA 测序与细胞染色核形态数据,成功建立了低剂量辐射暴露下随时间变化的转录组响应与核形态特征之间的关联。
Cellects 是一款用户友好且开源的软件,旨在通过图形界面和 Python API 对从真菌菌落到单细胞分支网络等多种生物系统的二维图像及时间序列数据,进行自动化的生长、运动及形态量化分析。