バイオインフォマティクスは、膨大な生物学的データをコンピュータの力で解析し、生命の謎を解き明かす分野です。ゲノム情報やタンパク質の構造といった複雑なデータから、新たな発見を引き出すための重要な橋渡し役となっています。

Gist.Science では、bioRxiv から公開される最新のプレプリントをすべて対象に、この分野の論文を網羅的に扱っています。専門的な詳細な要約に加え、難しい専門用語を避け、誰でも理解できる平易な日本語での解説も併せて提供しています。

以下に、bioRxiv から更新されたばかりのバイオインフォマティクスに関する最新論文の一覧を掲載します。

ERFMTDA: Predicting tsRNA-disease associations using an enhanced rotative factorization machine

この論文は、tsRNA と疾患の関連性を予測するために、複雑な特徴間相互作用を明示的にモデル化し、生物学的に裏付けられた負のサンプリング戦略を採用した新しい手法「ERFMTDA」を提案し、既存の最先端手法を上回る性能を実証したものである。

Lan, W., Wang, D., Chen, W., Yan, X., Chen, Q., Pan, S., Pan, Y.2026-03-24💻 bioinformatics

TCRseek: Scalable Approximate Nearest Neighbor Search for T-Cell Receptor Repertoires via Windowed k-mer Embeddings

TCRseek は、BLOSUM62 に基づくマルチスケール k-mer 埋め込みと FAISS による近似最近傍検索、そして厳密なアライメントによる再ランク付けを組み合わせる 2 段階フレームワークにより、大規模な TCR レパートリーデータに対して、既存手法を凌ぐスケーラビリティと高い検索精度を実現する手法を提案しています。

Yang, Y.2026-03-24💻 bioinformatics

From SNPs to Pathways: A genome-wide benchmark of annotation discrepancies and their impact on protein- and pathway-level inference

本論文は、SNP アノテーションツールの選択と遺伝子モデルの違いがタンパク質レベルや経路解析の結果に大きな影響を与えることを示し、より包括的で再現性の高いゲノム解釈のためには複数のツールとモデルを統合する戦略が不可欠であると結論付けています。

Queme, B., Muruganujan, A., Ebert, D., Mushayahama, T., Gauderman, W. J., Mi, H.2026-03-24💻 bioinformatics

Micro16S: Universal Phylogenetic 16S rRNA Gene Representations for Deep Learning of the Microbiome

本論文は、ゲノム分類データベースに基づく系統関係を反映した連続ベクトル空間に 16S rRNA 遺伝子配列を埋め込む深層学習モデル「Micro16S」を提案し、系統学的な一貫性と領域不変性を向上させたものの、現在のベンチマーク分類タスクでは古典的機械学習手法に劣るという限界と、将来の改善に向けた課題を明らかにしたものである。

Bishop, H. V., Ogilvie, O. J., Dobson, R. C. J., Herbold, C. W.2026-03-24💻 bioinformatics

ExposoGraph: An Interactive Platform for Carcinogen Bioactivation and Detoxification Pathway Visualization

IARC や PharmVar などの多様なデータソースを統合し、発がん物質の代謝活性化・解毒経路、DNA 損傷、遺伝的変異を単一のインタラクティブな知識グラフ「ExposoGraph」として可視化することで、がんリスク評価における遺伝子 - 環境相互作用の体系的な評価と仮説生成を支援するプラットフォームを開発したことを報告しています。

Pienta, K., Kazi, J. U.2026-03-24💻 bioinformatics

AI-readiness for Biomedical Data

本論文は、NIH Bridge2AI 標準ワーキンググループが提案する、単なる FAIR 原則の遵守を超えた 7 つの次元(FAIR 性、出所、特性評価、倫理、モデル前説明可能性、持続可能性、計算可能性)に基づく生体医学データ向け AI 準備性基準を定義し、4 つの主要データセットへの適用と機械可読メタデータへの実装を通じて、AI モデル化前の科学的厳密性と倫理的整合性を確保する枠組みを提示しています。

Clark, T., Caufield, H., Parker, J. A., Al Manir, S., Amorim, E., Eddy, J., Gim, N., Gow, B., Goar, W., Hansen, J. N., Harris, N., Hermjakob, H., Joachimiak, M., Jordan, G., Lee, I.-H., McWeeney, S. K (…)2026-03-23💻 bioinformatics

Entomopoxvirus-like long DNA sequences in human centromeric and peri-centromeric regions

本研究は、完全なヒトゲノム(T2T)の解析を通じて、通常は断片的なウイルス配列とは異なり、エンタモポックスウイルスに類似した長大な DNA 配列(最大 140 kb)がヒトのセントロメアおよびペリセントロメア領域に集積し、活発に転写されていることを初めて明らかにしたものである。

Hondo, E., Mizutani, T., Shimoda, H., Iida, A.2026-03-23💻 bioinformatics

Variable performance of widely used bisulfite sequencing methods and read mapping software for DNA methylation

この論文は、遺伝的に多様な自然個体群における DNA メチル化解析において、RRBS と WGBS の両方のライブラリー調製法および Bismark などのマッピングソフトウェアの性能を比較評価し、手法の選択がメチル化プロファイルに与える影響を明らかにするとともに、機能に関連するメチル化差の検出に向けた方法論的提言を行っている。

Kerns, E. V., Weber, J. N.2026-03-23💻 bioinformatics

ChEA-KG: Human Transcription Factor Regulatory Network with a Knowledge Graph Interactive User Interface

本論文は、RummaGEO の遺伝子セットと ChEA3 を用いて作成された高品質なヒト転写因子制御ネットワーク(ChEA-KG)を、インタラクティブな可視化ツールや多様なアトラス(細胞タイプ、がん、作用機序、老化など)を通じて探索可能にする Web サーバーアプリケーションを提案するものである。

Byrd, A. I., Evangelista, J. E., Lachmann, A., Chung, H.-Y., Jenkins, S. L., Ma'ayan, A.2026-03-23💻 bioinformatics