MIMIQ: Fast mutual information calculation and significance testing for single-cell RNA sequencing analysis
本文提出了名为 MIMIQ 的自适应分箱方法,旨在高效且准确地计算单细胞 RNA 测序数据中的成对互信息并同步进行显著性检验,从而成功应用于分析 SARS-CoV-2 感染期间 CD4+ 初始 T 细胞的基因重连现象。
1235 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
本文提出了名为 MIMIQ 的自适应分箱方法,旨在高效且准确地计算单细胞 RNA 测序数据中的成对互信息并同步进行显著性检验,从而成功应用于分析 SARS-CoV-2 感染期间 CD4+ 初始 T 细胞的基因重连现象。
本文介绍了 CRIS 数据库,这是一个旨在解决 RNA 结构数据可重复性与标准化难题的综合资源,通过提供经严格策展的交联实验数据集、标准化工作流及可视化工具,为 AI 驱动的 RNA 结构发现与深度学习研究奠定基础。
本文介绍了一种名为 KNexPHENIX 的定制化 PHENIX 工作流,该工作流能够高效优化冷冻电镜和 X 射线晶体学结构模型,在保持模型与实验数据拟合度及防止过拟合的同时,显著提升了模型的立体化学质量。
本文提出了 HEIMDALL 框架,通过解构单细胞基础模型中的分词器设计,揭示了基因身份、表达编码和排序等关键设计维度在分布偏移场景下对模型鲁棒泛化能力的决定性作用,并确立了分词器设计作为提升单细胞基础模型性能的核心原则。
该研究揭示了单细胞观测异质性会在流形推断中产生系统性扭曲(如虚假枢纽和环路),并提出基于图拓扑稳定性的描述符来界定可信推断的适用范围,从而强调必须解决观测异质性而非仅将其视为噪声。
本文针对 DLCoal 模型下基因树标记的正确性难题,提出了一种适用于包含深层不完全谱系分选场景的通用定义,并据此在模拟中评估了 ASTRAL-pro 方法的统计特性与标记准确性。
该研究通过结合基于理化性质分组简化的氨基酸字母表与字节对编码(BPE)子词分词技术,成功在蛋白质语言模型中实现了显著的训练与推理效率提升,同时保持了甚至改善了在多种下游任务中的预测性能。
该研究构建了包含 930 个环肽的 Cyclome930 数据集,开发了考虑旋转对称性的序列比对算法,并通过大规模副本交换分子动力学模拟训练了环状拓扑感知的热稳定性预测模型(STop2Melt)及关键金属结合评分工具(CritiCL),从而为环肽的稳定性分析与功能设计提供了首个整合物理模拟与机器学习的综合计算框架。
本文介绍了 Pipette,一种基于从海量文献中提取的“技能图”来约束多智能体协作的 AI 框架,它通过自然语言交互自动生成符合生物学逻辑的可执行生物信息学工作流,从而显著降低了非计算专家进行复杂基因组数据分析的门槛。
该研究证实变分自编码器(VAE)能够通过潜在空间表示和重构似然有效实现生物医学数据的聚类与异常检测,为临床应用中典型样本识别与异常检测提供了可解释的无监督框架。