バイオインフォマティクスは、膨大な生物学的データをコンピュータの力で解析し、生命の謎を解き明かす分野です。ゲノム情報やタンパク質の構造といった複雑なデータから、新たな発見を引き出すための重要な橋渡し役となっています。

Gist.Science では、bioRxiv から公開される最新のプレプリントをすべて対象に、この分野の論文を網羅的に扱っています。専門的な詳細な要約に加え、難しい専門用語を避け、誰でも理解できる平易な日本語での解説も併せて提供しています。

以下に、bioRxiv から更新されたばかりのバイオインフォマティクスに関する最新論文の一覧を掲載します。

Horse, not zebra: accounting for lineage abundance in maximum likelihood phylogenetics

この論文では、病原体の系統発生推定において、希少な系統よりも共通の系統(「馬」)を優先する「馬とシマウマ」の原則を取り入れた 2 つの最大尤度法アプローチ(多分岐の再スケーリングと系統発生事前分布の導入)を提案し、SARS-CoV-2 のような大規模な多分岐が発生するシナリオにおいて推定精度を劇的に向上させることを示しています。

De Maio, N.2026-03-27💻 bioinformatics

Adding layers of information to scRNA-seq data using pre-trained language models

この論文は、単一細胞データと生物医学文献の両方を用いて言語モデルを共同学習させることで、事前学習済み言語モデルを単一細胞 RNA シーケンシング解析に統合し、機能性や疾患関連、時間的軌跡などの分析を強化する汎用的で解釈可能な手法を提案しています。

Krissmer, S. M., Menger, J., Rollin, J., Vogel, T. M., Binder, H., Hackenberg, M.2026-03-26💻 bioinformatics

Seqwin: Ultrafast identification of signature sequences in microbial genomes

本論文は、数千〜数万に及ぶ微生物ゲノムデータから、PCR 診断に用いる高感度かつ特異的なシグネチャ配列を、既存手法よりも高速かつ正確に同定するオープンソースフレームワーク「Seqwin」を開発し、その有効性を実証したものである。

Wang, M. X., Kille, B., Nute, M. G., Zhou, S., Stadler, L. B., Treangen, T. J.2026-03-26💻 bioinformatics

Amaranth: Enhanced Single-Cell Transcript Assembly via Discriminative Modeling of UMI Reads and Internal Reads

本論文は、UMI リードと内部リードの生物学的・統計的性質の違いを識別的にモデル化し、これに基づいて開発した新しいシングルセル転写アセンブラ「Amaranth」が、Smart-seq3 データセットにおいて既存の手法を上回る精度でアイソフォームレベルの転写再構成を実現することを報告しています。

Zang, X. C., Zahin, T., Khan, I. M., Shi, Q., Xing, Y., Shao, M.2026-03-26💻 bioinformatics

Predicting Unseen Gene Perturbation Response Using Graph Neural Networks with Biological Priors

本論文は、タンパク質間相互作用ネットワークや機能注釈などの生物学的知識をグラフニューラルネットワークに統合した「PerturbGraph」というフレームワークを提案し、訓練データに含まれていない遺伝子操作に対する転写応答を、既存の手法よりも高い精度で予測可能にしたことを報告しています。

Dip, S. A., Zhang, L.2026-03-26💻 bioinformatics

Nextstrain automates real-time phylodynamic analysis of open data for endemic and emerging pathogens

Nextstrain は、エンドミックおよび新興病原体の 21 種類について、オープンデータのみを用いて日次で自動化されたリアルタイムな系統動態分析を実施し、その結果を公開するプラットフォームを提供するものである。

Andrews, K. R., Chang, J., Roemer, C., Hadfield, J., Lin, V., Brito, A. F., Daodu, R., Joia, I. A., Kistler, K., Li, A. W., Moncla, L. H., Paredes, M. I., Kuhnert, D., Torres, L. M., Voitl, L., Aksame (…)2026-03-26💻 bioinformatics

Scaling and Generalization of Discrete Diffusion Models for Tumor Phylogenies

本論文は、約 1 万 2500 個の合成腫瘍系統発生樹を用いたスケーリング実験を通じて、離散拡散モデルが腫瘍進化の構造的制約をデータから直接学習し、中規模モデルが最適な性能を発揮することや、多様な進化レジームでの学習が転移性能を高めることを示し、腫瘍進化の生成モデルとしての可能性を確立した。

Sabata, S., Schwartz, R.2026-03-26💻 bioinformatics

Experimental mismatch in benchmarking PELSA and LiP-MS

Li らが PELSA 法と LiP-MS 法の比較で PELSA の優位性を主張した論文について、公開データの再解析により、報告された巨大な効果量の差は実験条件の不一致と未開示のデータ補完に起因するものであり、両手法の定量的優位性や生物学的解釈性に関する結論には慎重な扱いが必要であると指摘しています。

Van Leene, C., Araftpoor, E., Gevaert, K.2026-03-26💻 bioinformatics

FoundedPBI: Using Genomic Foundation Models to predict Phage-Bacterium Interactions

本論文は、プロカリアートとバクテリオファージの両方のゲノムで事前学習された大規模言語モデルのアンサンブル学習と長文脈処理技術を組み合わせることで、実験的スクリーニングに依存せず、DNA 配列のみからファージと細菌の相互作用を高精度に予測する新しい手法「FoundedPBI」を提案し、既存の最先端手法を上回る性能を達成したことを報告しています。

Carrillo Barrera, P., Babey, A., Pena, C. A.2026-03-26💻 bioinformatics

GraphHDBSCAN*: Graph-based Hierarchical Clustering on High Dimensional Single-cell RNA Sequencing Data

この論文は、単一細胞 RNA 配列解析データにおいて、既存の手法が見過ごしがちな階層的構造を保持しつつ、生物学的に意味のある細胞集団を高精度に同定するための、グラフベースのハイパーパラメータ不要な階層的密度ベースクラスタリング手法「GraphHDBSCAN*」を提案し、その有効性を検証したものである。

Ghoreishi, S. A., Szmigiel, A. W., Nagai, J. S., Gesteira Costa Filho, I., Zimek, A., Campello, R. J. G. B.2026-03-26💻 bioinformatics