Mapping spatial cell-cell communication programs by tailoring chains of cells for transformer neural networks
本文介绍了 scCChain,一种基于 Transformer 的框架,它通过将空间转录组数据中的细胞连接成链来量化配体 - 受体相互作用,从而在单细胞和空间分辨率下识别并定位具有生物学意义的细胞通讯程序及热点区域。
766 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
本文介绍了 scCChain,一种基于 Transformer 的框架,它通过将空间转录组数据中的细胞连接成链来量化配体 - 受体相互作用,从而在单细胞和空间分辨率下识别并定位具有生物学意义的细胞通讯程序及热点区域。
该研究利用 UK Biobank 大规模数据,通过新颖的 Wasserstein 距离框架系统评估了五种机器学习变异注释方法在罕见变异关联测试中的表现,发现 CADD 注释在信号分离度上表现最佳,而 AlphaMissense 存在校准偏差,且不同方法组合均能有效富集对功能缺失不耐受的基因。
本文介绍了 ISdetector,一种专为短读长测序数据设计的生物信息学流程,它通过独特的 IS 清洁参考策略和软剪切读段聚类技术,实现了对插入序列精确插入位点及其伴随结构变异的高效、准确检测,显著优于现有工具并适用于大规模群体研究。
本文分析了多种不确定性量化方法在基因组语言模型中的应用,发现温度缩放和认知神经网络能有效提升模型在分布偏移(如未知物种和新变异)下的预测可靠性。
该研究提出了一种利用预训练基因组语言模型 Evo2 生成的嵌入向量进行噬菌体宿主预测的无监督检索方法,结果表明 Evo2 虽在物种级精确匹配上略逊于传统方法,但在捕捉更高层级分类宿主范围信号及与现有工具融合提升整体检索性能方面具有显著优势。
PanXpress 是一个统一的细菌泛转录组分析框架,它通过直接从基因组文件构建包含 gapped k-mer 的索引,实现了无需比对的高效读段映射与基因表达定量,有效解决了混合菌株样本中的参考偏差问题,并在准确性、速度和索引效率上优于现有工具。
该研究对来自扎格陨石(Zag meteorite)的核酸序列进行了多层级分析,发现其虽缺乏已知生物编码特征且非随机,但展现出独特的受限复杂性,表明这些序列处于现有生物或技术模型难以解释的序列空间区域,从而缩小了可能解释的范围并呼吁进一步独立验证。
该研究利用大语言模型从多机构 Ewing 肉瘤病理报告中高效提取结构化数据,验证了其高准确性,并发现 NSE 阳性与 S100 阳性分别是该疾病(尤其是非转移性病例)的不良和良好预后生物标志物,表明 AI 辅助的病理数据挖掘可优化风险分层。
本文提出了 FlashS 方法,通过将空间可变基因检测移至频域并利用随机傅里叶特征与稀疏草图技术,实现了在无需构建距离矩阵的情况下对零膨胀数据进行多尺度核测试,从而在保持校准精度的同时,显著提升了在大规模空间转录组数据(如包含 394 万个细胞的 Allen 脑图谱)中的计算效率与检测性能。
该研究构建了迄今为止最大规模的食蟹猴多器官单细胞转录组图谱,并通过人类基础模型实现了跨物种细胞类型注释,为生物制剂的靶点评估、毒性机制解析及减少非人灵长类动物使用提供了关键资源。