GraphPop: graph-native computation decouples population genomics complexity from sample count
GraphPop 是一款基于图数据库的计算引擎,通过将群体基因组学分析的复杂度从与样本量线性相关降低为仅与群体数量相关,实现了在极低内存占用下对大规模数据集(如水稻 3K 和人类 1000 基因组)进行超高速、可组合且注释集成的群体遗传分析。
1235 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
GraphPop 是一款基于图数据库的计算引擎,通过将群体基因组学分析的复杂度从与样本量线性相关降低为仅与群体数量相关,实现了在极低内存占用下对大规模数据集(如水稻 3K 和人类 1000 基因组)进行超高速、可组合且注释集成的群体遗传分析。
BioTrendFinder 是一款交互式网络工具,通过结合样本排序策略、统计结果及多源功能注释,在降维后的基因和蛋白质组学数据中识别显著分子趋势线,从而辅助用户从网络层面探索功能驱动因子并优先筛选候选分子靶点。
本文介绍了 SPEAR 框架,该框架通过统一的转录起始位点中心特征表示,利用 Transformer 等模型从单细胞染色质可及性数据中预测基因表达,揭示了不同基因的可预测性差异及启动子近端区域在顺式调控中的核心作用。
该研究通过 TB-Bench 基准测试系统评估了多种机器学习与深度学习方法在预测二线抗结核药物耐药性方面的表现,发现传统机器学习模型在内部测试中优于深度学习模型,但两者在外部验证中均未显著超越基于目录的传统方法,揭示了当前模型在跨数据集泛化及临床转化方面仍面临的关键挑战。
本文提出了 IMAS 框架,该框架利用泛癌单细胞多组学资源,通过目标域适应和通信引导建模,有效整合稀疏异质的肿瘤多组学数据,从而在数据受限条件下解析出可解释的、由细胞间通讯驱动的调控机制。
本文介绍了 BrainPET Studio,这是一款开源的桌面工具,它通过集成仿射配准、部分容积校正及标准化摄取值比计算等功能,在无需 FreeSurfer 的情况下实现了基于图谱的 PET 神经影像定量分析,并验证了其与现有主流流程的高度一致性。
本文提出了 VeloTrace 框架,利用深度神经常微分方程(Neural ODE)将 RNA 速度建模与轨迹推断统一为几何一致的连续动力学系统,通过多时间帧监督策略有效解决了局部速度与全局轨迹的失配问题,从而在单细胞转录组分析中实现了对包括低表达基因在内的更广泛基因转录动力学的精准重构。
本文介绍了由 dPCR 社区协作开发的轻量级跨平台标准“数字 PCR 数据核心标准”(DDES),旨在通过统一包含实验元数据、检测化学及原始荧光数据的三种文件格式,解决不同仪器间的数据互操作性问题,从而推动临床与研究领域的 FAIR 数据实践及可重复性研究。
DyME 是一个集成了高通量突变、溶剂化分子动力学模拟及对比分析工具箱的分布式平台,旨在通过自动化处理数千个分子系统并整合轨迹数据,系统性地研究蛋白质识别模拟与工程改造。
本研究利用 AlphaFold 构建了线粒体融合蛋白(Mitofusins)的全长结构模型,揭示了一种涉及七肽重复结构域的新型交叉二聚化模式,并据此提出了线粒体外膜融合的新机制假说。