ERFMTDA: Predicting tsRNA-disease associations using an enhanced rotative factorization machine
本文提出了一种名为 ERFMTDA 的增强旋转因子分解机框架,通过显式建模异质生物特征间的复杂交互、整合潜在结构表示并引入基于基序序列相似性的负采样策略,显著提升了 tsRNA-疾病关联预测的准确性与可靠性。
1243 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
本文提出了一种名为 ERFMTDA 的增强旋转因子分解机框架,通过显式建模异质生物特征间的复杂交互、整合潜在结构表示并引入基于基序序列相似性的负采样策略,显著提升了 tsRNA-疾病关联预测的准确性与可靠性。
本文提出了 TCRseek,一种结合多尺度窗口 k-mer 嵌入与 FAISS 近似最近邻索引的两阶段检索框架,通过引入重排序机制,在显著加速大规模 TCR 库搜索的同时保持了高灵敏度。
该研究通过大规模基准测试发现,不同 SNP 注释工具与基因模型会导致显著的结果差异,进而影响下游通路分析,因此采用多工具与多模型整合策略能提供最全面的注释并保障基因组解释的稳健性。
dreampy 是一个 Python 工具,它将 R 语言中的 dreamlet 框架原生移植到 Python 生态中,利用伪批量混合模型对单细胞 RNA-seq 数据进行差异表达分析,以有效处理批次效应、重复测量及多供体研究中的层级结构。
本文提出了 Micro16S,一种基于系统发育关系将 16S rRNA 基因序列嵌入连续向量空间的深度学习模型,该模型虽在分类基准任务中表现不及传统方法,但成功验证了利用进化信息构建微生物组表征的可行性,并指出了算法设计与类别不平衡等未来改进方向。
ExposoGraph 是一个交互式知识图谱平台,通过整合 IARC、KEGG 及 PharmVar 等多源数据,将致癌物暴露、代谢活化与解毒途径、DNA 损伤及遗传变异统一可视化,从而支持癌症风险中基因 - 环境相互作用的系统性评估与假设生成。
本文介绍了由 NIH Bridge2AI 标准工作组制定的生物医学数据 AI 就绪性框架,该框架通过 FAIR 性、来源、表征、伦理、模型前可解释性、可持续性和可计算性七大核心维度,确立了超越传统 FAIR 原则的严格标准,旨在从数据获取和治理的“模型前”阶段确保人工智能研究的科学严谨性与伦理完整性。
该研究在人类 T2T 基因组中发现了一段长达 140 kb、与昆虫痘病毒相似度超过 57% 的长序列,并揭示此类病毒样序列广泛分布于人类着丝粒及着丝粒旁区域(特别是 hsat1A 区),且在这些区域表现出广泛的转录活性。
该研究通过评估多种亚硫酸氢盐测序文库构建策略及比对软件在遗传多样性自然种群中的表现,揭示了不同方法在甲基化检测覆盖范围、精度及功能区域偏好上的显著差异,并据此为提升非模式生物 DNA 甲基化分析的可靠性提供了方法学建议。
本文介绍了 ChEA-KG,这是一个基于 ChEA3 富集分析构建的高质量人类转录因子调控网络知识图谱及其交互式网页应用,支持网络可视化、转录因子查询以及涵盖细胞类型、癌症、作用机制和衰老等多维度的调控子网络探索。