Gene-First Identity Construction for Robust Cell Identification in Single-Cell Transcriptomics
该论文提出了 GeCCo 方法,通过构建基于基因共表达逻辑的严格层级结构,将细胞身份识别从传统的静态聚类范式转变为程序化的生物学定义,从而在单细胞转录组分析中实现了全局一致性与局部亚型分辨率的数学统一。
1250 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
该论文提出了 GeCCo 方法,通过构建基于基因共表达逻辑的严格层级结构,将细胞身份识别从传统的静态聚类范式转变为程序化的生物学定义,从而在单细胞转录组分析中实现了全局一致性与局部亚型分辨率的数学统一。
该研究以大肠杆菌 O157:H7 为模型,系统评估了六种泛基因组图构建工具,发现图的结构、规模及准确性高度依赖于所采用的表示策略和输入基因组组装的完整性,而非仅仅是细菌多样性的通用表征。
该研究通过对近 100 种淀粉样蛋白纤维结构的系统分析,揭示了结合口袋的高度保守性是导致阿尔茨海默病和帕金森病药物缺乏选择性的根本原因,并提出了一个以口袋多样性为核心的框架,旨在指导未来针对特定纤维多态体的选择性配体设计。
本研究利用更新的 k-mer 分析工具 PORT-EK-v2 结合马尔可夫链蒙特卡洛建模,揭示了 HIV-1 不同亚型间 DNA 与 RNA 序列特征存在显著差异及不连续性,并证实“分离株 k-mer 计数”可作为区分这两类序列属性的有效指标,从而为未来识别新兴亚型提供了重要依据。
CellPace 是一种基于 Transformer 时间扩散机制的生成框架,能够利用连续时间编码从稀疏的单细胞快照数据中模拟、插值并预测连续的细胞发育动态,同时保留精细的基因调控程序和多模态生物学特征。
本文提出了一种名为 bionSBM 的基于图的主题建模方法,利用多部分图的社区检测技术整合单细胞多组学数据,在聚类性能、特异性和生物学可解释性方面均优于现有最先进方法。
本文介绍了名为 ITSxRust 的基于 Rust 的长读长真菌 ITS 区域提取工具,它通过结合 HMMER 搜索、去重优化及双锚点部分链恢复策略,在提取成功率(75.3%)和运行速度(比 ITSx 快 4.6 倍)上均显著优于现有工具 ITSx 和 ITSxpress,并提供了结构化的诊断与质控功能。
本文提出了名为 POTTR 的新框架,利用不完全偏序集(posets)和冲突图算法来解决 NP 难的 MkCIIS 问题,从而在肿瘤进化与发育生物学数据中有效识别并解析出具有统计显著性的复发轨迹,克服了传统方法在处理异质性和进化树不确定性方面的局限。
该研究提出了一种结合机器学习与基因组尺度代谢建模的通用框架,通过解析肿瘤、微生物(如具核梭杆菌)与药物间的代谢互作,成功预测并验证了针对结直肠癌的微生物组特异性协同疗法,揭示了磷酸肌醇代谢和半胱氨酸转运在其中的关键作用。
本研究基于转录组数据分析发现,脓毒症中“别吃我”信号相关基因(特别是 CD47 下调和 PRTN3 上调)发生显著重编程,构建了高诊断效能的 6 基因特征,并提示 CD47-SIRP 轴可能是治疗脓毒症免疫失调的潜在靶点。