Impact of Regularization Methods and Outlier Removal on Unsupervised Sample Classification
该研究表明,尽管不可消除的批次效应和离群值剔除会引入误差,但正则化方法并未改变基于真实世界数据的无监督样本分类模式,且实验的可重复性并非评估此类检测质量的有效指标。
1235 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
该研究表明,尽管不可消除的批次效应和离群值剔除会引入误差,但正则化方法并未改变基于真实世界数据的无监督样本分类模式,且实验的可重复性并非评估此类检测质量的有效指标。
本文介绍了 MTB-KB,这是一个整合了 1,246 篇文献中 7.5 万余条关联数据的结核病研究知识数据库,旨在通过结构化平台、交互式知识图谱及用户友好界面,解决结核分枝杆菌相关知识的碎片化问题,从而支持全球结核病的基础研究、临床诊疗及防控消除工作。
该研究提出并验证了一个整合元集成 QSAR、结构对接、蛋白质语言模型引导的残基加权及分子动力学模拟的稳健计算框架,成功从近 1.6 万种化合物中筛选并优先确定了具有优异 CNS 渗透性和稳定结合特性的 BACE1 抑制剂候选药物,为阿尔茨海默病治疗提供了系统性的多准则先导化合物发现策略。
本文介绍了 TCMCard,这是一个基于多维证据整合框架的高置信度数字基础设施,通过融合实验数据、文献证据及结构相似性推断来大幅降低网络药理学中的噪声,从而为传统中药多成分协同作用的研究提供可靠且可交互的可视化分析平台。
该研究通过系统比较 OBITools3/ecoPCR、RESCRIPt 和 MetaCurator 三种工具,构建了经过严格筛选和评估的高质量 trnL 植物参考序列数据库,并揭示了不同工具在不同 trnL 区域(CD、CH、GH)上的分类性能差异,从而为植物 DNA 宏条形码研究提供了可靠的全球性参考资源。
本文提出了名为 MHCXGraph 的基于图的计算方法,通过整合 pMHC 结构信息与图分析技术,有效克服了传统序列方法的局限,能够灵活、可解释地识别 T 细胞受体交叉反应中的保守结构决定簇,从而助力 T 细胞疗法与疫苗的开发。
本文介绍了 Synolog 这一可扩展的基于共线性的生物信息学工具,它能够自动识别同源基因、共线性簇及基因重复事件,并通过可视化功能辅助分析基因组架构、进化关系及染色体组装,同时对比了其与基于序列相似性方法的优劣。
本文介绍了 PERREO,这是一个专为癌症等生物背景下重复元件表达谱分析而设计的综合、用户友好型流程,它通过整合短读长和长读长测序数据的质控、比对、定量及网络分析等功能,有效克服了传统 RNA-seq 流程对重复序列定量不足的局限,从而显著提升了重复转录组在疾病研究中的发现能力。
该研究提出了一种名为 Immunotype 的深度学习集成预测模型,能够直接从免疫蛋白质组学数据中准确推断 HLA I 类等位基因型,从而解决了多等位基因复杂性下的 HLA 分型难题并实现了大规模数据集的快速、低成本分析。
该研究通过系统性基准测试发现,scAR 和 CellClear 等工具在去除环境 RNA 时会因生成虚假计数而严重破坏数据完整性,相比之下 CellBender 和 SoupX 在保持计数矩阵完整性的同时表现出更可靠的去噪性能,从而为不同实验平台下的工具选择提供了关键指导。