バイオインフォマティクスは、膨大な生物学的データをコンピュータの力で解析し、生命の謎を解き明かす分野です。ゲノム情報やタンパク質の構造といった複雑なデータから、新たな発見を引き出すための重要な橋渡し役となっています。

Gist.Science では、bioRxiv から公開される最新のプレプリントをすべて対象に、この分野の論文を網羅的に扱っています。専門的な詳細な要約に加え、難しい専門用語を避け、誰でも理解できる平易な日本語での解説も併せて提供しています。

以下に、bioRxiv から更新されたばかりのバイオインフォマティクスに関する最新論文の一覧を掲載します。

MIMIQ: Fast mutual information calculation and significance testing for single-cell RNA sequencing analysis

この論文は、単一細胞 RNA シーケンシングデータにおける計算コストと精度のトレードオフを克服し、負の二項分布を仮定した適応的ビンニング法とコピュラ変換を用いた相互情報量の高速計算および有意性検出手法「MIMIQ」を提案し、COVID-19 感染時の CD4+ ナイーブ T 細胞の遺伝子リワイヤリング解析への応用を示したものである。

O'Hanlon, D., Garcia Busto, S., Perez Carrasco, R.2026-04-13💻 bioinformatics

Optimizing Protein Tokenization: Reduced Amino Acid Alphabets for Efficient and Accurate Protein Language Models

本論文は、アミノ酸の物性に基づいた縮小アルファベットと部分語トークナイゼーション(BPE)を組み合わせることで、タンパク質言語モデルの計算効率を大幅に向上させつつ、予測性能を維持または向上させる手法を提案し、その有効性を多様なタスクで実証したものである。

Rannon, E., Burstein, D.2026-04-12💻 bioinformatics

Cyclome: Large-scale replica-exchange dynamics of 930 cyclic peptide reveal thermal stability and critical metal-binding behavior

本論文は、930 種類の環状ペプチドを統合した大規模データベース「Cyclome930」を構築し、新規な環状配列アラインメント法、大規模分子動力学シミュレーション、および環状構造を考慮した機械学習モデルを組み合わせることで、環状ペプチドの熱安定性予測や重要金属結合性の評価を可能にする包括的な計算フレームワークを提案しています。

Sajeevan, K. A., Gates, H., Raghunath, V. S., Tan, C. P. H., Danurdoro, R., Young, J., Chowdhury, R.2026-04-12💻 bioinformatics

Pipette: Encoding scientific literature into an executable Skill Graph for multi-agent bioinformatics

本論文は、2 万を超える学術論文から抽出された「スキルグラフ」を用いて生物学的に妥当な分析遷移を制約する多エージェント AI フレームワーク「Pipette」を提案し、自然言語による対話で複雑なバイオインフォマティクスワークフローを自動生成・実行可能にすることで、専門的計算知識を必要とせずともゲノムデータから生物学的知見を得られるようにするものである。

Gupta, C., Sharma, A.2026-04-12💻 bioinformatics

Interpretable Antibody-Antigen Structural Interface Prediction via Adaptive Graph Learning and Cyclic Transfer

本論文は、限られた構造データとクラス不均衡という課題を克服し、抗体 - 抗原複合体の構造をグラフとして表現するマスク付きグラフ注意機構(MGA)に基づく「VASCIF」というフレームワークを提案し、従来の構造ベース手法よりも高速かつ高精度にインターフェースを予測可能にするだけでなく、生体物理学的に意味のある相互作用パターンを解釈可能にすることを示しています。

Liu, X., Kantorow, J., Chattopadhyay, A. K., Chakraborty, S.2026-04-12💻 bioinformatics

rnaends: an R package to study exact RNA ends at nucleotide resolution

この論文は、RNA 末端の正確な位置をヌクレオチドレベルで解析し、転写開始部位の同定や翻訳速度、分解動態などの RNA メタボリズム研究を可能にする専用 R パッケージ「rnaends」の機能と、既存の RNA エンドシーケンシングデータを用いた具体的な適用事例を紹介するものである。

Caetano, T., Redder, P., Fichant, G., Barriot, R.2026-04-11💻 bioinformatics

Coherent Cross-modal Generation of Synthetic Biomedical Data to Advance Multimodal Precision Medicine

本論文は、TCGA の大規模多オミクスデータを用いて、欠損するモダリティを任意の組み合わせから高忠実度で生成する「Coherent Denoising」と呼ばれる拡散モデルを提案し、不完全な患者プロファイルにおける予測モデルの性能維持や診断検査の優先順位付けに貢献する精密がん医療への新たな基盤を確立したものである。

Marchesi, R., Lazzaro, N., Endrizzi, W., Leonardi, G., Pozzi, M., Ragni, F., Bovo, S., Moroni, M., Osmani, V., Jurman, G.2026-04-11💻 bioinformatics

PRIZM: Combining Low-N Data and Zero-shot Models to Design Enhanced Protein Variants

PRIZM は、わずか約 20 個の既知変異データを用いて特定のタンパク質特性に最適なゼロショットモデルを自動選定し、そのモデルで計算上の変異ライブラリを優先順位付けすることで、限られた実験データでも高品質なタンパク質変異体を効率的に設計できる新しいワークフローを提案しています。

Harding-Larsen, D., Lax, B. M., Garcia, M. E., Mendonca, C., Mejia-Otalvaro, F., Welner, D. H., Mazurenko, S.2026-04-11💻 bioinformatics

FM-GPT: Bayesian fine mapping for phenome-wide transcriptome-wide association studies

大規模な表現型ワイド関連解析(TWAS)において、複数の相関する形質や混合した結果変数から因果遺伝子を特定し、偽陽性を抑制して生物学的メカニズムを解明する新しいベイズ法「FM-GPT」を開発し、UK バイオバンクデータを用いた脳画像および臨床表現型の解析でその有効性を実証しました。

Canida, T., Ye, Z., Wang, S.-H., Huang, H.-H., Pan, Y., Liang, M., Chen, S., Ma, T.2026-04-11💻 bioinformatics