EGGS: Empirical Genotype Generalizer for Samples
本文介绍了用 C 语言编写的 EGGS 工具,它能够处理含缺失数据的实证基因型以复制缺失分布,并具备去相位、模拟去氨基化与测序错误、生成假单倍体以及在不同格式间转换等多种功能。
768 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
本文介绍了用 C 语言编写的 EGGS 工具,它能够处理含缺失数据的实证基因型以复制缺失分布,并具备去相位、模拟去氨基化与测序错误、生成假单倍体以及在不同格式间转换等多种功能。
CycleGRN 是一种无需时间分箱或剪接动力学信息的新型框架,它通过将细胞周期基因表达视为随机微分方程的不变测度并构建流场对齐的有向图,成功从单细胞转录组数据中推断出具有振荡特性的基因调控网络。
MOSAIC 是一种基于谱分解的框架,它通过构建样本特异性的耦合矩阵并学习高分辨率的特征 - 样本联合嵌入,从群体规模单细胞多组学数据中捕捉特征间的交互关系,从而实现了差异连接分析、无监督亚群发现及临床结局预测等应用。
本文提出了 MAP 框架,通过构建大规模细胞扰动知识图谱并采用知识驱动的预训练策略,将分子结构、蛋白序列与机制描述统一嵌入,从而实现了在缺乏实验数据的情况下对未表征药物诱导的单细胞响应进行零-shot 预测,显著提升了泛化能力并成功筛选出潜在的抗癌药物。
本文提出了一种名为 SpaMOAL 的基于图对比学习的计算方法,通过整合空间坐标、组织学图像特征和分子谱数据,有效解决了空间多组学数据中多模态信息融合的挑战,从而实现了对空间组织域的高精度识别。
该研究提出了一种基于最优传输的谱系追踪框架,利用纵向单细胞测序数据成功重构了急性病毒感染中 CD8 T 细胞跨组织的分化轨迹,揭示了肠道迁移的时间特异性波次及 AP4 转录因子在循环与组织驻留记忆 T 细胞命运决定中的关键调控作用。
本文提出了 keju,这是一种针对大规模并行报告基因实验(MPRA)数据的分层统计模型,通过条件化 DNA 计数来分别建模不同批次和模态的 RNA 计数不确定性,从而在显著提高检测灵敏度的同时,有效降低了假阳性率。
本文评估并比较了基于“必然筛选”(sure screening)原理的多种模型无关特征筛选方法在组学分类任务中的性能,发现 BcorSIS 方法在多种组学数据集上具有最佳的计算效率和筛选效果。
该论文提出了 GeCCo 方法,通过构建基于基因共表达逻辑的严格层级结构,将细胞身份识别从传统的静态聚类范式转变为程序化的生物学定义,从而在单细胞转录组分析中实现了全局一致性与局部亚型分辨率的数学统一。
本文提出了一种名为 bionSBM 的基于图的主题建模方法,利用多部分图的社区检测技术整合单细胞多组学数据,在聚类性能、特异性和生物学可解释性方面均优于现有最先进方法。