Identification of Distinct Topological Structures From High-Dimensional Data
本文提出了一种名为 ID 的新方法,通过构建高维系统的低维参数化表示并施加有限扰动来识别响应相似的基因集,从而有效解卷积复杂的生物过程,在单细胞 RNA 测序数据中成功揭示了细胞分化、外部扰动响应及基因敲除效应等以往难以捕捉的拓扑结构。
1243 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
本文提出了一种名为 ID 的新方法,通过构建高维系统的低维参数化表示并施加有限扰动来识别响应相似的基因集,从而有效解卷积复杂的生物过程,在单细胞 RNA 测序数据中成功揭示了细胞分化、外部扰动响应及基因敲除效应等以往难以捕捉的拓扑结构。
本文提出了一种名为 VINE 的变分推断方法,通过结合高维空间节点嵌入与基于距离的解码器,实现了在保持贝叶斯系统发育重建精度的同时,将计算速度提升数个数量级,从而能够高效处理大规模物种及细胞谱系数据。
本文介绍了 SuperFocus,这是一种模态无关的计算平台,能够无需外部参考数据即可将基于点的空间测量数据转化为与组织病理学图像整合的单细胞空间多组学信息,从而在单细胞分辨率下实现全组织切片的分子病理分析并显著提升了预测精度。
该研究证明,单个 AI 智能体(Claude Opus 4.6)结合 LLM 驱动的匹配对齐方法,在五个独立的农业元分析数据集中实现了与人工提取数据的统计等效性,从而将数据提取成本降低一至两个数量级并显著提升了连续型数据的提取精度。
本文介绍了FuzzyClusTeR,这是一个用于识别、可视化及富集分析基因组中串联重复序列及弥散(模糊)重复序列簇的Web服务器,并通过在T2T-CHM13v2.0基因组中分析端粒样重复序列,揭示了具有潜在进化与功能意义的非随机基因组模式。
该论文提出了利用基因局部 HPO 结构生成逼真合成表型数据的框架 GraPhens,并基于此训练了图神经网络 GenPhenia,使其在仅使用合成数据训练的情况下,仍能超越现有方法并在真实临床病例中实现有效的基因优先排序。
本文提出了名为 REGEN 的图神经网络框架,能够从批量转录组数据中同时学习基因相互作用网络并预测患者生存状态,通过系统比较邻接矩阵初始化策略为相关应用提供了实践指南,并在多种癌症类型中验证了其优越的性能与生物学意义。
本文提出了 EvoMut 计算框架,通过整合结构、化学、功能及进化信息,将氧化脆弱性与突变可行性明确区分,从而实现对蛋白质氧化稳定性进行理性设计与优化的有效指导。
该研究构建了一个统一且注重实际实施的基准框架,对 46 种多基因风险评分工具在二分类和连续表型下的预测性能、计算资源消耗及鲁棒性进行了全面评估,发现没有单一方法在所有场景下均表现最优,工具的实际效果受统计方法、表型架构及实施约束等多重因素共同影响。
本文介绍了 Helicase,一个基于 Rust 的高性能库,它利用 SIMD 向量化技术将 FASTA/Q 解析转化为有限状态机,实现了针对 x86 和 ARM 架构的极速解析、非标准字符处理及 DNA 序列位打包,其吞吐量超越了所有现有同类库。