バイオインフォマティクスは、膨大な生物学的データをコンピュータの力で解析し、生命の謎を解き明かす分野です。ゲノム情報やタンパク質の構造といった複雑なデータから、新たな発見を引き出すための重要な橋渡し役となっています。

Gist.Science では、bioRxiv から公開される最新のプレプリントをすべて対象に、この分野の論文を網羅的に扱っています。専門的な詳細な要約に加え、難しい専門用語を避け、誰でも理解できる平易な日本語での解説も併せて提供しています。

以下に、bioRxiv から更新されたばかりのバイオインフォマティクスに関する最新論文の一覧を掲載します。

Adversarial Sequence Mutations in AlphaFold andESMFold Reveal Nonphysical StructuralInvariance, Confidence Failures, and Concerns forProtein Design

本論文は、アタック的な変異評価を通じて、AlphaFold が生物物理学的な推論ではなくテンプレートへの依存に頼っており、変異に対する構造的な不変性や信頼性指標の限界を示すことで、タンパク質設計や創薬におけるその信頼性に重大な懸念を提起していることを明らかにしています。

Feldman, J., Brogi, M., Skolnick, J.2026-02-26💻 bioinformatics

OriGene: A Self-Evolving Virtual Disease Biologist Automating Therapeutic Target Discovery

本研究は、600 以上の専門ツールと自己進化型マルチエージェントシステムを統合し、人間や既存の AI を凌駕する精度で治療ターゲットを特定・検証する仮想疾患生物学者「OriGene」を開発し、肝臓がんおよび大腸がんの新たな治療ターゲット候補を実験的に実証したことを報告しています。

Zhang, Z., Qiu, Z., Wu, Y., Li, S., Wang, D., Liu, Y., Zhou, Z., Hu, Y., Chen, Y., An, D., Wang, Y., Li, Y., Zhong, Z., Ou, C., Wang, Z., Tang, F., Chen, J. X., Ma, R., Li, J., Wang, X., Lu, W., Xue (…)2026-02-25💻 bioinformatics

MaxGeomHash: An Algorithm for Variable-Size Random Sampling of Distinct Elements

本論文では、既知の MinHash や FracMinHash の中間的なサイズを持つ部分線形なサマリー(スケッチ)を生成し、保存効率と推定精度のバランスを最適化しながら、大規模な生物学的データセットにおける類似度推定や系統樹構築の効率と精度を向上させる新しいアルゴリズム「MaxGeomHash」を提案し、その理論的性質と実証的有効性を検証しています。

Hera, M. R., Koslicki, D., Martinez, C.2026-02-25💻 bioinformatics

PMGen: From Peptide-MHC Structure Prediction to Peptide Generation

PMGen は、AlphaFold2 に初期推測とテンプレート工学を導入することで、MHC クラス I および II に対する変異長ペプチドの高精度な構造予測を実現し、構造に基づくペプチド設計や機械学習用データ生成を可能にする統合フレームワークです。

Asgary, A. H., Aleyasin, A., Mehl, J. A., Fallah, S., Aintablian, H., Ludewig, B., Mishto, M., Liepe, J., Soeding, J.2026-02-25💻 bioinformatics

Protein Compositional Ratio Representation (PCRR)Systematically Improves Human Disease Prediction

本研究は、タンパク質の絶対量ではなく相対的な比率(対数比)を特徴量として用いる「タンパク質組成比率表現(PCRR)」を提案し、アルツハイマー病のサブタイプ分類や大規模な疾患予測において、従来の絶対量ベースのモデルを大幅に上回る精度と生物学的解釈性を達成したことを示しています。

Madduri, A. V., Ellis, R. J., Patel, C. J.2026-02-25💻 bioinformatics

KuPID: Kmer-based Upstream Preprocessing of Long Reads forIsoform Discovery

KuPID は、kmer スケッチングを用いて長鎖 RNA シーケンスリードを既知のアイソフォームに疑似アライメントする前処理手法であり、動的計画法による完全アライメントの必要性を低減することで、アイソフォーム発見パイプラインの精度を最大 16.7 ポイント向上させつつ実行時間を 2〜3 倍短縮することを可能にします。

Borowiak, M., Yu, Y. W.2026-02-25💻 bioinformatics

GaugeFixer: overcoming parameter non-identifiability in models of sequence-function relationships

本研究は、シークエンス - 機能関係モデルにおけるパラメータの非同一性(ゲージ自由度)を効率的に解決し、数百万のパラメータを持つ大規模モデルの解釈を可能にする Python パッケージ「GaugeFixer」を開発し、翻訳開始の適応度ランドスケープ解析を通じてその有用性を実証したものである。

Marti-Gomez, C., McCandlish, D. M., Kinney, J. B.2026-02-25💻 bioinformatics

Distilling Protein Language Models with Complementary Regularizers

本研究は、教師モデルの分布を平滑化するラベルスムージングと生物学的に変動する位置に重み付けを行う位置重み付けという、単独では性能を低下させるが組み合わせると相補的に機能する 2 つの正則化手法を用いて大規模なタンパク質言語モデルを小型化し、推論速度の向上や限られたデータでのドメイン適応能力の向上を実現したことを示しています。

Wijaya, E.2026-02-25💻 bioinformatics