A Resolution-Agnostic Geometric Transformer for Chromosome Modeling Using Inertial Frame
本文提出了 InertialGenome,一种基于惯性系姿态归一化和几何感知位置编码的分辨率无关 Transformer 框架,用于解决单细胞 Hi-C 数据中染色体 3D 结构重建的泛化性难题,并在多分辨率重建精度、功能验证及跨分辨率迁移学习方面均优于现有基线方法。
1248 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
本文提出了 InertialGenome,一种基于惯性系姿态归一化和几何感知位置编码的分辨率无关 Transformer 框架,用于解决单细胞 Hi-C 数据中染色体 3D 结构重建的泛化性难题,并在多分辨率重建精度、功能验证及跨分辨率迁移学习方面均优于现有基线方法。
本文介绍了 SCOTCH,这是一种支持多种长读长单细胞测序平台的端到端分析流程,通过建模非重叠子外显子、动态阈值判定及迭代聚类策略,显著提升了单细胞水平上已知转录本的定量精度和新型异构体的重建能力。
本文介绍了 FAIRSCAPE 框架,这是一个通过集成丰富元数据、深度溯源图及自动化评估机制,旨在提升生物医学数据集可解释性、伦理合规性及 FAIR 原则(可查找、可访问、可互操作、可重用)符合度的数字公共环境,已成功应用于美国国立卫生研究院(NIH)的大型多模态数据生成计划中。
本文提出了一种名为 HDMAX2-surv 的高维中介分析框架,该框架通过整合潜在因子模型与灵活生存模型,有效解决了癌症研究中未观测混杂因素和删失生存数据的挑战,并在胰腺癌数据中成功识别出烟草暴露影响生存的关键甲基化区域及免疫介导通路。
该研究开发了一种结合长读长 RNA 测序与质谱数据的端到端工作流,通过构建单倍型解析的样本特异性蛋白质组数据库,实现了对参考基因组无法检测的变异肽段、剪接变体及等位基因特异性蛋白异构体的精准鉴定。
本文介绍了 nVenn2,这是一种能够根据非空区域数量而非集合总数来优化计算效率的算法,旨在为包含大量集合且存在大量空交集的情况生成更简洁、易读且可编辑的准比例维恩图。
本文提出了 gSV,一种基于第三代测序数据、融合比对与组装策略且无需预设变异模型的通用结构变异检测工具,其在模拟与真实数据中展现出优于现有工具的灵敏度,特别是在识别复杂结构变异及癌症相关基因变异方面具有显著优势。
本文提出了 EvoStructCLIP,一种融合局部 3D 结构窗口与进化约束的突变中心多模态嵌入模型,通过对比学习在 ClinVar 数据上训练,并在 CAGI7 盲测中展现出跨基因、跨表型任务的高泛化能力与竞争性预测性能。
该论文通过 CAMDA 2025 社区基准测试,系统评估了 11 种生成模型在合成转录组数据中效用、生物真实性与隐私风险之间的权衡,指出模型选择应依据具体数据集特征、下游用途及隐私需求进行优化。
本文提出了名为 Kg4j 的计算框架,通过从大规模知识图谱 FORVM 中构建针对特定研究问题的小型化子图并结合实验数据,成功揭示了内异症与持久性有机污染物暴露之间的潜在生物学机制,为生成可验证的医学假设提供了可扩展的策略。