bioinformatics 篇论文

生物信息学宛如一座连接生物学与计算机科学的桥梁，利用强大的算法和数据分析技术，将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察，而是通过代码挖掘基因组的秘密，帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。

作为 Gist.Science 的专属栏目，我们持续追踪来自 bioRxiv 的最新预印本论文，确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理，不仅提供详尽的技术总结，更精心撰写通俗易懂的科普解读，让复杂的生物数据变得清晰易懂。

以下为您呈现该领域最新发表的几项重要研究成果，带您探索生命数字化的最新进展。

💻 bioinformatics

Phenotype-driven de novo molecular design from gene expression signatures

该论文介绍了 Tx2Mol，这是一个转录组引导的框架，它将基因表达特征转化为在化学上合理且在生物学上相关的从头设计分子，并证明了其在保持大块、单细胞及患者来源疾病背景下的表型响应方面优于现有基准模型。

Xu, Y., Kuang, T., Ge, S., Wu, H., Wang, M., Xu, H., An, F., Ma, Z., Cheng, Q., Ren, Z.2026-07-25

💻 bioinformatics

pyfraglib: An integrated cfDNA fragmentomics platform

本文介绍了 pyfraglib，这是一个基于 Python 的综合性平台，它集成了 cfDNA 片段提取、统计建模、队列级比较分析以及计算机模拟（in silico simulation），以实现端到端的片段组学工作流，该工作流已通过在模拟数据和真实世界中枢神经系统淋巴瘤样本上的应用得到了成功验证，用于识别预后亚群。

Schuette, D., Godfrey, L. K., Schneider, J., Borchmann, S., Heger, J.-M., Schwarz, R. F.2026-07-24

💻 bioinformatics

A new automated pipeline for whole genome shotgun sequencing analysis and hazard characterization of microbial pesticides

本文介绍了一种公开可用的基于 Web 的自动化流水线，该流水线将全基因组测序数据与全面的危害特征化工具相结合，为微生物农药提供了一个透明、可重复且基于规则的风险评估工作流，与现有的监管方法相比具有显著改进。

Saraiva, J. P., Lupo, V., Cerqueira, F., Makri, S., Vasileiadis, S., Guijarro, B., Bartholomaus, A., Papagiannitsis, C. (…)2026-07-24

💻 bioinformatics

Statistical tests for bivariate spatial association across multi-omics data with disjoint coordinates

本文介绍了 R 语言包 `sbivar`，该工具包提供了一套改进的统计检验和方差估计方法，旨在通过妥善处理空间自相关和高维计算挑战，严谨地评估具有不相交坐标的多组学模态之间的双变量空间关联。

Hawinkel, S., Hu, W., Velten, B., Maere, S.2026-07-23

💻 bioinformatics

Convergent Cysteine Enrichment in Diverse Gut Phage Capsids Suggests Gut-Associated Structural Adaptation

这项研究揭示了多样化的肠道噬菌体趋同进化出了具有埋藏的高度保守残基的富含半胱氨酸的主壳体蛋白，这表明了一种旨在使壳体在恶劣的肠道环境中保持稳定的结构适应。

Anderson, R., Wilczek, M. P.2026-07-23

💻 bioinformatics

An openly licensed benchmark and per-gene calibration map for missense pathogenicity predictors on activating cancer drivers

这项研究揭示了目前的错义致病性预测器主要基于功能缺失变异进行训练，由于其独特的结构和进化特征，系统性地低估了激活型癌症驱动因子，因此作者提供了一个开源许可的基准、逐基因校准图谱以及一个经过重新校准的框架（OncoCal），以改进体细胞变异的解读。

Lee, S.-G.2026-07-23

💻 bioinformatics

Hobrac: a reference-guided workflow for genome comparison and synteny visualization

Hobraс是一款自动化的、免费开放的工作流，它通过将自动化的参考基因组选择与基于基因的结构分析相结合，简化了全基因组比较和共线性可视化流程，旨在克服组装验证和进化研究中的挑战。

Istace, B., Denoeud, F., Teodori, E., Chorba, N., Aury, J.-M.2026-07-23

💻 bioinformatics

PepCL: A replay-based continual learning framework for updating peptide-MHC models

该论文介绍了 PepCL，这是一个基于回放的持续学习框架，并配以一种名为 MHCPrime 的新型最先进模型，该模型使肽-MHC 预测器能够整合新的实验测定数据，同时保留先前的质谱知识，以克服灾难性遗忘并提高在不同生物学背景下的预测性能。

Chati, P. M., Lashkari, V. D., Salhotra, A., Bruno, P. M., Ntranos, V.2026-07-21

💻 bioinformatics

Extended t-cores for the de novo identification of transposable elements and other inexact repeats from short read RNAseq data

本文介绍了一种基于紧凑型 De Bruijn 图中“扩展 t-核”的完全从头开始的方法，该方法能够直接从短读长 RNA-seq 数据中有效识别并区分转座元件及其他不精确重复序列，且无需参考基因组。

Darmon, S., Mary, A., Lacroix, V.2026-07-20

💻 bioinformatics

Systematic evaluation and benchmarking of text summarization methods for biomedical literature: From word-frequency methods to language models

本文通过对 1,000 篇生物医学摘要中的 62 种文本摘要方法进行基准测试，揭示了通用型中等规模语言模型在生成准确且语义连贯的科学摘要方面，表现优于统计学抽取式方法以及专用型或前沿规模的模型。

Baumgärtel, F., Bono, E., Fillinger, L., Galou, L., Keska-Izworska, K., Walter, S., Andorfer, P., Kratochwill, K., Perc (…)2026-07-16