MIMIQ: Fast mutual information calculation and significance testing for single-cell RNA sequencing analysis
本文提出了名为 MIMIQ 的自适应分箱方法,旨在高效且准确地计算单细胞 RNA 测序数据中的成对互信息并同步进行显著性检验,从而成功应用于分析 SARS-CoV-2 感染期间 CD4+ 初始 T 细胞的基因重连现象。
758 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
本文提出了名为 MIMIQ 的自适应分箱方法,旨在高效且准确地计算单细胞 RNA 测序数据中的成对互信息并同步进行显著性检验,从而成功应用于分析 SARS-CoV-2 感染期间 CD4+ 初始 T 细胞的基因重连现象。
该研究通过结合基于理化性质分组简化的氨基酸字母表与字节对编码(BPE)子词分词技术,成功在蛋白质语言模型中实现了显著的训练与推理效率提升,同时保持了甚至改善了在多种下游任务中的预测性能。
该研究构建了包含 930 个环肽的 Cyclome930 数据集,开发了考虑旋转对称性的序列比对算法,并通过大规模副本交换分子动力学模拟训练了环状拓扑感知的热稳定性预测模型(STop2Melt)及关键金属结合评分工具(CritiCL),从而为环肽的稳定性分析与功能设计提供了首个整合物理模拟与机器学习的综合计算框架。
本文介绍了 Pipette,一种基于从海量文献中提取的“技能图”来约束多智能体协作的 AI 框架,它通过自然语言交互自动生成符合生物学逻辑的可执行生物信息学工作流,从而显著降低了非计算专家进行复杂基因组数据分析的门槛。
本文提出了名为 VASCIF 的可解释性框架,该框架基于掩蔽图注意力机制,通过自适应图学习和循环迁移策略,在克服数据稀缺与类别不平衡挑战的同时,实现了高效且准确的抗体 - 抗原结构界面预测,并揭示了符合生物物理原理的相互作用模式。
本文介绍了专为分析 RNA 末端测序数据而开发的 R 包 rnaends,该工具能够处理从原始数据预处理、末端定位定量到下游分析(如转录起始位点鉴定、共翻译降解动力学及转录后修饰研究)的全流程,填补了该领域缺乏通用分析包的空白。
该研究提出了一种名为“相干去噪”的生成式扩散框架,能够从任意子集的多模态数据中合成缺失模态,在包含万余例样本的癌症多组学数据集上验证了其生成高保真数据的能力,有效解决了数据稀疏问题并提升了精准肿瘤学中的预测性能与诊断测试优先级规划。
本文提出了 PRIZM 工作流,通过利用极少量(约 20 个)标记数据筛选出最适合特定蛋白质性质的预训练零样本模型,进而高效指导蛋白质变体的设计与优化,在无需大量数据和深厚计算背景的情况下成功提升了酶的热稳定性和活性。
本文提出了名为 FM-GPT 的新型贝叶斯精细定位方法,用于在表型组范围转录组关联分析中整合多种相关表型以识别因果基因,该方法通过基因引导的降维有效区分了真实因果效应与连锁不平衡引起的假信号,并在 UK Biobank 数据中成功揭示了影响大脑皮层厚度及多系统疾病的共享生物学机制。
本文介绍了 LYM-1,这是首个利用涵盖 10 种作物、23 年及 470 万条观测数据的大规模数据集构建的多作物产量预测模型,旨在通过整合气象与土壤数据来解析基因、环境与管理的复杂交互,从而优化加拿大西部地区的作物生产并辅助育种设计。