bioinformatics 篇论文

生物信息学宛如一座连接生物学与计算机科学的桥梁，利用强大的算法和数据分析技术，将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察，而是通过代码挖掘基因组的秘密，帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。

作为 Gist.Science 的专属栏目，我们持续追踪来自 bioRxiv 的最新预印本论文，确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理，不仅提供详尽的技术总结，更精心撰写通俗易懂的科普解读，让复杂的生物数据变得清晰易懂。

以下为您呈现该领域最新发表的几项重要研究成果，带您探索生命数字化的最新进展。

该研究提出了名为 DEPICT 的深度学习框架，能够基于基线基因表达和扰动设置准确预测匹配条件的药物转录组响应，从而在无需昂贵实验的情况下有效推动药物重定位和联合用药发现。

eSIG-Net 是一种首创的基于序列的“相互作用语言模型”，它通过融合多种蛋白质序列嵌入、突变编码模块及对比学习，仅利用序列信息即可准确预测单点突变对蛋白质相互作用的特异性扰动，其性能显著优于现有的序列和结构预测方法。

本文提出了一种名为 scTGCL 的基于 Transformer 的图对比学习框架，通过结合多头自注意力机制与数据增强策略，有效解决了单细胞 RNA 测序数据的高维稀疏与噪声问题，在显著降低计算成本的同时实现了优于现有最先进方法的聚类性能。

该论文提出了一种新的线性时间定向算法，将包含特定特征的泛基因组双向图转化为有向图，从而利用现有算法高效识别超气泡（ultrabubbles），显著提升了在大规模泛基因组分析中的计算速度与可扩展性。

本研究提出了一种基于粗粒化二级结构元素表示的“构象扫描”高通量方法，通过解耦拓扑连接与几何刚性，成功从 PDB 中系统挖掘出具有相同拓扑但发生显著大尺度构象变化的蛋白质对，从而为蛋白质动态功能研究及生成式结构模型提供了关键的基准数据集。

该研究开发了一种基于 Transformer 的模型，通过无监督学习从氨基酸序列预测密码子选择，成功克服了稀有密码子数据稀缺的难题，揭示了密码子选择受物种特征、RNA 热力学性质及长程上下文调控的规律，并建立了基因序列变异与蛋白质适应性及功能之间的关联。

本文介绍了 LATTE，一种利用创新多指标 EM 算法实现跨物种转座元件（TE）位点特异性表达定量的计算框架，其高精度分析揭示了 TE 与宿主基因在表达调控上的解偶联机制，并证实了 TE 在复杂性状遗传架构中发挥着独立于基因 eQTL 的关键作用。

该研究提出了一种基于贝叶斯推断的整合建模方法，通过联合分析家系中多个个体的数据，不仅提高了等位基因表达不平衡（ASE）的估计精度，还能有效推断其遗传模式并量化不确定性，从而助力解析顺式调控变异对表型的影响。

GraphBG 是一个统一且可扩展的框架，它通过结合近似谱图卷积与变分贝叶斯高斯混合模型，实现了多切片及多模态空间转录组数据中空间结构域的快速、准确检测与整合分析。

本文介绍了 GRIMM-II，这是一种基于图论的两阶段实时算法，能够高效完成九位点 HLA 基因型推断，并在包含超过 800 万供体的数据库中快速识别出最多三个错配位点的潜在供者，从而显著扩大造血干细胞移植的供者匹配范围。