bioinformatics 篇论文 | Gist.Science

生物信息学宛如一座连接生物学与计算机科学的桥梁，利用强大的算法和数据分析技术，将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察，而是通过代码挖掘基因组的秘密，帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。

作为 Gist.Science 的专属栏目，我们持续追踪来自 bioRxiv 的最新预印本论文，确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理，不仅提供详尽的技术总结，更精心撰写通俗易懂的科普解读，让复杂的生物数据变得清晰易懂。

以下为您呈现该领域最新发表的几项重要研究成果，带您探索生命数字化的最新进展。

User-driven development and evaluation of an agentic framework for analysis of large pathway diagrams

本文介绍了一个名为 Llemy 的基于大语言模型的代理框架，通过从黑客松开始的持续用户驱动开发流程，有效辅助研究人员探索和分析复杂的大型分子相互作用图谱，并验证了其在路径总结及功能优先排序方面的实用价值。

Corradi, M., Djidrovski, I., Ladeira, L., Staumont, B., Verhoeven, A., Sanz Serrano, J., Rougny, A., Vaez, A., Hemedan, A., Mazein, A., Niarakis, A., de Carvalho e Silva, A., Auffray, C., Wilighagen (…)2026-03-12💻 bioinformatics

Accounting for Defective Viral Genomes in viral consensus genome reconstruction, application to influenza virus

本文介绍了 DIPScan 这一新方法，它能够准确检测流感病毒测序数据中的缺失型病毒基因组（DelVGs），并校正由此产生的共识序列错误，从而提升病毒基因组重建的准确性。

Da Silva, K., Naffakh, N., Rameix-Welti, M.-A., Lemoine, F.2026-03-12💻 bioinformatics

MultiPopPred: A Trans-Ethnic Disease Risk Prediction Method, and its Application to the South Asian Population

本文提出了一种名为 MultiPopPred 的新型跨种族多基因风险评分估计方法，该方法利用 Nesterov 平滑惩罚收缩模型整合多个辅助人群数据，显著提升了南亚人群等低资源群体的疾病风险预测精度。

Kamal, R., Narayanan, M.2026-03-11💻 bioinformatics

Hybrid untargeted and targeted RNA sequencing facilitates genotype-phenotype associations at single-cell resolution

该研究提出了一种结合短读长全转录组扩增与长读长靶向测序的混合策略及配套流程，旨在通过平衡广覆盖与深测序优势，突破单细胞分辨率下基因型 - 表型关联分析的覆盖度瓶颈。

Wang, J., Maldifassi, M., Bratus-Neuenschwander, A., Zhang, Q., Beuschlein, F., Penton, D., Robinson, M. D.2026-03-11💻 bioinformatics

resolveS: rapid inference of RNA-seq library strandedness using universal rRNA alignments

该论文介绍了一种名为 resolveS 的快速轻量级工具，它通过比对通用 rRNA 数据库来推断 RNA-seq 文库的链特异性，从而无需依赖特定物种的参考基因组即可高效解决公共数据中元数据缺失的问题。

Yu, D., Zhao, T., Xi, L.2026-03-11💻 bioinformatics

Generalise or Memorise? Benchmarking Ligand-Conditioned Protein Generation from Sequence-Only Data

该研究通过将小分子结合蛋白设计构建为序列到序列的翻译任务，利用大规模配体 - 蛋白数据集训练了纯序列条件的蛋白质语言模型，揭示了监督模糊性导致的“泛化与记忆”权衡现象，并指出数据冗余与不完整是序列级结合蛋白设计的主要瓶颈。

Vicente, A., Dornfeld, L., Coines, J., Ferruz, N.2026-03-11💻 bioinformatics

Automated extraction and optimization of protein purification protocols using multi-agent large language models

本文提出了一种基于多智能体大语言模型的系统，通过自动化文献检索、协议提取与对比分析，显著优化了重组蛋白纯化流程并提升了实验成功率，同时也指出了当前科学文献缺乏程序化开放访问这一关键限制。

Ye, J., DeRocher, A., Khim, M., Subramanian, S., Cron, L., Myler, P. J., Phan, I. Q.2026-03-11💻 bioinformatics

Modularity, ecology, and theoretical evolution of the ribozyme body plan

该研究提出了一种基于动物学框架的 ribozyme 进化新理论，通过将七类小自切割核酶映射为原始海洋动物身体构型并构建生态互作网络，揭示了核酶在 RNA 世界中的捕食者 - 猎物关系、模块化演化机制及古代生态位，从而为不依赖序列假设推断早期 RNA 形式提供了新途径。

Bachelet, I.2026-03-11💻 bioinformatics

Beyond Binding Affinity: The Kinetic-Compatibility Hypothesis for Nipah Virus Neutralization

该研究通过分析 1,194 个计算结合体，推翻了“静态结合亲和力是尼帕病毒中和关键”的假设，提出了强调结构灵活性和末端序列模体等特征的“动力学兼容性假说”，并构建了结合经验数据与机器学习预测的 10 点筛选框架以指导 15 kDa 迷你蛋白支架的候选药物开发。

Bozkurt, C.2026-03-11💻 bioinformatics

MESSI: Multimodal Experiments with SyStematic Interrogation using nextflow

本文介绍了 MESSI，一个基于 Nextflow 的可重复多模态整合方法基准测试框架，该框架通过标准化流程和公平评估策略，对多种整合方法在预测性能、生物学可解释性及计算效率方面进行了系统评估，结果表明没有单一方法在所有场景下均最优，方法选择需根据具体目标进行权衡。

Liang, C., Grewal, T., Singh, A., Singh, A.2026-03-11💻 bioinformatics

← 上一页下一页 →