バイオインフォマティクスは、膨大な生物学的データをコンピュータの力で解析し、生命の謎を解き明かす分野です。ゲノム情報やタンパク質の構造といった複雑なデータから、新たな発見を引き出すための重要な橋渡し役となっています。

Gist.Science では、bioRxiv から公開される最新のプレプリントをすべて対象に、この分野の論文を網羅的に扱っています。専門的な詳細な要約に加え、難しい専門用語を避け、誰でも理解できる平易な日本語での解説も併せて提供しています。

以下に、bioRxiv から更新されたばかりのバイオインフォマティクスに関する最新論文の一覧を掲載します。

Systematic contextual biases in SegmentNT potentially relevant to other nucleotide transformer models

本論文は、SegmentNT 核酸トランスフォーマーモデルにおける体系的な文脈バイアスを特定・特徴付けし、具体的には入力配列長、ヌクレオチド位置、およびトークナイズに起因する 24 塩基周期振動に関するバイアスを明らかにするとともに、予測の一貫性を向上させ、同様のゲノムモデルの利用を導くための標準化手法を提案する。

Ebbert, M. T. W., Ho, A., Page, M. L., Dutch, B., Byer, B. K., Hankins, K. L., Sabra, H., Aguzzoli Heberle, B., Wadsworth, M. E., Fox, G. A., Karki, B., Hickey, C., Fardo, D. W., Bumgardner, C., Jakub (…)2026-05-05💻 bioinformatics

MilliMap: interactive closed-loop analysis for spatial omics

MilliMap は、統計計算と空間探索を統合するインタラクティブなフレームワークであり、神経解剖学から腫瘍微小環境に至るまでの応用において、研究者が単一の環境内でパラメータを調整し、知見を検証できるようにすることで、空間オミクスデータの閉ループ型反復分析を可能にする。

Feng, Q., Qian, S. B., Wan, J., Starr, Z. R., Asif, S., Han, H.-S.2026-05-05💻 bioinformatics

SenNet Portal: Build, Optimization and Usage

本論文は、ヒトおよびマウスの加齢研究における細胞老化を体系的に特徴づけるために、調和されたマルチモーダル・マルチ組織データセットおよび解析ツールへのオープンアクセスを提供し、ヒトおよびマウスの加齢研究における細胞老化を体系的に特徴づけるためのスケーラブルなハイブリッドクラウドプラットフォームであるSenNetデータポータルを提示する。

Borner, K., Blood, P. D., Silverstein, J. C., Ruffalo, M., Satija, R., Gehlenborg, N., Honick, B., Bueckle, A., Jain, Y., Qaurooni, D., Shirey, B., Sibilla, M., Metis, K., Bisciotti, J., Morgan, R. S. (…)2026-05-04💻 bioinformatics

Do Larger Models Really Win in Drug Discovery?A Benchmark Assessment of Model Scaling in AI-Driven Molecular Property and Activity Prediction

このベンチマーク研究は、創薬において大規模なAIモデルが常に小規模なモデルよりも優れているという前提に疑問を呈し、大規模な基盤モデルと比較して、コンパクトで特化されたモデルが、多様な分子物性および活性タスクにおいて、しばしば同等かそれ以上の予測精度を達成することを示しています。

Guo, J.2026-05-04💻 bioinformatics

AnnotateMissense: a genome-wide annotation and benchmarking framework for missense pathogenicity prediction

AnnotateMissense は、132,714 個の ClinVar ラベル付き変異で訓練された XGBoost モデルを用いて 9000 万を超えるミスセンス変異に対する高性能な病原性予測をベンチマークし生成するスケーラブルなフレームワークであり、多様なゲノムおよびタンパク質言語モデル特徴を統合することで卓越した精度を達成する。

Muneeb, M., Ascher, D. B.2026-05-04💻 bioinformatics

AI-guided discovery of atypical protein assemblies

著者らは、構造的新規性指数(SNI)を開発し、これは人工知能駆動型の枠組みであり、NRC 免疫受容体の予期せぬ 11 量体集合体を同定・実験的に検証することに成功し、カノン的構造を超えた非典型的タンパク質複合体を発見するためのスケーラブルな手法を実証した。

Toghani, A., Seager, B. A., Sugihara, Y., Roijen, L.-M., Azcue, J. M., Garro, M., Sargolzaei, M., Morianou, I., Harant, A., Gallop, S., Kourelis, J., MacLean, D., Contreras, M. P., Kamoun, S., Lüdke (…)2026-05-04💻 bioinformatics

A 37-million-particle dataset from over 250 experiments to accelerate data-driven cryo-EM analysis

本論文は、構造生物学におけるデータ駆動型手法の開発を促進し、現在のデータ制限を克服するために設計された、252 の多様な実験から得られた 3700 万超の注釈付きクライオ電子顕微鏡粒子を含む大規模データセット cryoPANDA を紹介する。

Zamanos, A., Kyrilis, F. L., Koromilas, P., Kastritis, P. L., Panagakis, Y.2026-05-03💻 bioinformatics

Modeling healthy proteomic profiles for anomaly detection using subspace learning based one-class classification

本論文は、疾患訓練サンプルを必要とせずに多様な疾患を頑健に検出するために健康な血漿プロテオームプロファイルをモデル化する、完全にデータ駆動型の部分空間ワンクラス分類フレームワークを提示し、これにより高次元臨床データにおけるクラス不均衡の課題を克服する。

Sohrab, F., Kumar, A., Ahola, V., Magis, A., Hautamaki, V., Heinaniemi, M., Huang, S.2026-05-01💻 bioinformatics

Hierarchical Breakdown of RNA Structure Prediction in CASP16: From Reliable Local Features to Speculative Multimer Assembly

本論文は、LCBio による CASP16 のケーススタディを提示し、専門家の指導によるワークフローが RNA 多量体予測において競争力のある順位を達成し得る一方で、マルチヘリックス接合部や非標準的相互作用のモデリングにおける持続的な課題により、信頼性の高い局所的特徴が正確なグローバル構造へと変換されず、精度が階層的に低下する傾向が現在の手法にみられることを示している。

Nithin, C., Pilla, S. P., Kmiecik, S.2026-04-30💻 bioinformatics