バイオインフォマティクスは、膨大な生物学的データをコンピュータの力で解析し、生命の謎を解き明かす分野です。ゲノム情報やタンパク質の構造といった複雑なデータから、新たな発見を引き出すための重要な橋渡し役となっています。

Gist.Science では、bioRxiv から公開される最新のプレプリントをすべて対象に、この分野の論文を網羅的に扱っています。専門的な詳細な要約に加え、難しい専門用語を避け、誰でも理解できる平易な日本語での解説も併せて提供しています。

以下に、bioRxiv から更新されたばかりのバイオインフォマティクスに関する最新論文の一覧を掲載します。

ProtFlow: Flow Matching-based Protein Sequence Design with Comprehensive Protein Semantic Distribution Learning and High-quality Generation

ProtFlow は、リフロー技術を用いた整流フローマッチングと大規模タンパク質言語モデルのセマンティック統合ネットワークを組み合わせることで、タンパク質のグローバルな意味分布を包括的に学習し、希少な機能を持つ高品質なペプチドや抗菌ペプチドの生成を実現する革新的な生成モデルである。

Kong, Z., Zhu, Y., Xu, Y., Yin, M., Hou, T., Wu, J., Xu, H., Hsieh, C.-Y.2026-02-17💻 bioinformatics

A Robust Framework for Predicting Mutation Effects on Transcription Factor Binding: Insights from Mutational Signatures in 560 Breast CancerGenomes

本研究は、560 例の乳がんゲノムにおける 350 万の体細胞変異を対象とした計算機パイプラインを開発し、特定の突然変異プロセスが転写因子の結合親和性を非ランダムかつ方向性を持って変化させ、乳がんのサブタイプに特異的な遺伝子制御ネットワークの再編成を引き起こすことを実証しました。

Kilinc, H. H., Otlu, B.2026-02-17💻 bioinformatics

Evaluating Single-Cell Perturbation Response Models Is Far from Straightforward

本論文は、単細胞ノックアウトデータに対する細胞応答予測モデルの評価において、既存の指標がスケーリングや次元数などの影響で誤った評価をもたらすことを示し、クロス分割や合成データを用いた厳密な検証を通じて、信頼性の高いベンチマークと評価ガイドラインの確立の必要性を提言しています。

Heidari, M., Karimpour, M., Srivatsa, S., Montazeri, H.2026-02-17💻 bioinformatics

Ancestry-specific performance of variant effect predictors in clinical variant classification

本研究は、アレル頻度で層別化して評価することで、既存の変異効果予測ツールが主要な祖先集団間で同様の性能を発揮することを示し、遺伝性疾患の診断におけるこれらのツールの広範な展開を支持するものである。

Hoffing, R., Zeiberg, D., Stenton, S. L., Mort, M., Cooper, D. N., Hahn, M. W., O'Donnell-Luria, A., Ward, L. D., Radivojac, P.2026-02-17💻 bioinformatics

A Discrete Language of Protein Words for Functional Discovery and Design

この論文は、アミノ酸配列を「タンパク質の単語」という離散的な語彙に変換する物理意識的なフレームワークを提案し、進化の複雑性の解明、未機能タンパク質の発見、そして機能的なタンパク質の設計を可能にする新たなアプローチを示しています。

Guo, Z., Wang, Z., Chai, Y., XU, K., Li, M., Li, W., Ou, G.2026-02-17💻 bioinformatics

RNAiSpline: A Deep learning model for siRNA efficacy prediction

本論文は、自己教師あり学習とカールモゴロフ・アルノルドネットワーク(KAN)、CNN、Transformer エンコーダを統合した深層学習モデル「RNAiSpline」を提案し、限られたデータやバイアスに強い汎化性能を持つ siRNA の有効性予測を実現したことを示しています。

Surkanti, S. R., Kasturi, V. V., Saligram, S. S., Basangari, B. C., Kondaparthi, V.2026-02-17💻 bioinformatics

TITAN-BBB: Predicting BBB Permeability using Multi-Modal Deep-Learning Models

本論文では、化学記述子と深層学習の埋め込みを組み合わせるマルチモーダル深層学習アーキテクチャ「TITAN-BBB」を提案し、これまでにない大規模な BBB 透過性データセットを用いた評価において、分類および回帰タスクで最先端のモデルを上回る性能を達成したことを報告しています。

de Oliveira, G. B., Saeed, F.2026-02-17💻 bioinformatics

MolDeBERTa: Foundational Model for Physicochemical and Structural-Informed Molecular Representation Learning

本論文は、物理化学的および構造的性質を考慮した新しい事前学習タスクを採用し、1 億 2300 万の SMILES 分子で事前学習された大規模な構造情報に基づく分子表現学習モデル「MolDeBERTa」を提案し、既存のマスク言語モデルを上回る性能で分子特性予測や設計を加速する基盤モデルの確立を示しています。

de Oliveira, G. B., Saeed, F.2026-02-17💻 bioinformatics

FiCOPS: Hardware/Software Co-Design of FPGA Computational Framework for Mass Spectrometry-Based Peptide Database Search

本論文は、質量分析に基づくペプチドデータベース検索の高速化と省電力化を実現するため、ハードウェア/ソフトウェア協調設計手法を用いてFPGA基盤の計算フレームワーク「FiCOPS」を提案し、既存のCPUおよびGPUソリューションに対してそれぞれ 3.5 倍の高速化と 3〜5 倍の消費電力削減を達成したことを示しています。

Kumar, S., Zambreno, J., Khokhar, A., Akram, S., Saeed, F.2026-02-17💻 bioinformatics

Diffusion Probabilistic Models for Missing-Wedge Correction in Cryo-Electron Tomography

本論文は、電子顕微鏡トモグラフィーにおける欠損楔(missing-wedge)アーチファクトを補正するため、自然動画のフレーム予測手法を基盤とし、2D 傾斜画像の生成を通じて 3D 再構成の精度向上を目指す「MW-RaMViD」という新しい拡散確率モデルを提案し、その有効性を検証したものである。

Hasan, N., Bertin, A., Jonic, S.2026-02-17💻 bioinformatics