Bacterial protein function prediction via multimodal deep learning
本論文は、遺伝子発現、遺伝子位置、タンパク質構造という多様な情報を統合し、細菌の円形ゲノムにおける機能的な特徴を捉えることで、既存手法を上回る精度で細菌タンパク質の機能を予測する深層学習フレームワーク「DeepEST」を開発したことを報告しています。
769 件の論文
バイオインフォマティクスは、膨大な生物学的データをコンピュータの力で解析し、生命の謎を解き明かす分野です。ゲノム情報やタンパク質の構造といった複雑なデータから、新たな発見を引き出すための重要な橋渡し役となっています。
Gist.Science では、bioRxiv から公開される最新のプレプリントをすべて対象に、この分野の論文を網羅的に扱っています。専門的な詳細な要約に加え、難しい専門用語を避け、誰でも理解できる平易な日本語での解説も併せて提供しています。
以下に、bioRxiv から更新されたばかりのバイオインフォマティクスに関する最新論文の一覧を掲載します。
本論文は、遺伝子発現、遺伝子位置、タンパク質構造という多様な情報を統合し、細菌の円形ゲノムにおける機能的な特徴を捉えることで、既存手法を上回る精度で細菌タンパク質の機能を予測する深層学習フレームワーク「DeepEST」を開発したことを報告しています。
この論文は、エピスタシス(遺伝子間相互作用)を考慮しない従来の線形モデルを用いた GWAS が、現実的な条件下で統計的有意性を過大評価(反保守的)し、偽陽性の結果をもたらす可能性を数学的導出とシミュレーションにより示し、既存の報告結果の解釈に慎重さが必要であると結論付けています。
本論文は、遺伝子ツリーの集合から種系統樹を推定する統計的一貫性を持つ手法「STELAR-X」を提案し、そのデータ構造とアルゴリズムの抜本的な再設計により、従来の手法では処理不可能だった 10 万種規模の超大規模データセットを効率的かつ高速に解析可能にしたことを報告しています。
本論文は、AlphaFold3 と同等のトレーニングデータと計算リソースでより高い精度を達成し、推論時のスケーリング特性やタンパク質テンプレート・RNA MSA 対応といった機能を実装した、初の完全オープンソースの生体分子構造予測モデル「Protenix-v1」を紹介するとともに、より大規模なデータセットで学習した改良版と、より信頼性の高い評価手法を公開することを報告しています。
この研究は、宿主の炎症が口腔内微生物叢の生態系を再編成し、糖質利用型の共生菌から炎症環境に適応した代謝特化型病原菌へと移行させる選択圧として機能することを、小児の歯科プラークと膿瘍の対比分析から明らかにしました。
本研究は、シミュレーションを通じて不完全な系統分岐(ILS)と系統樹推定誤差(GTEE)が種系統樹推定に与える影響を解明し、同程度の不一致レベルであっても GTEE の方がより大きな悪影響を及ぼし、両者が四分木分布に異なる構造をもたらすことを示しました。
Folddisco は、位置に依存しない幾何学的特徴と稀有性に基づくスコアリングを採用することで、5300 万構造のタンパク質データベースから機能的に重要な構造モチーフを既存手法より 20 倍高速かつ 4 倍の保存効率で検索可能にする新しいツールです。
この論文は、ゲノム配列データから直接シテニーブロックを導出するための形式的枠組みを提案し、一般には NP 困難である最適化問題に対して、共線性と共有要素の条件を課すことで両方の目的関数を同時に最小化する線形時間アルゴリズムを開発したことを示しています。
ProteoMapper は、HMMER ベースのドメイン注釈とユーザー定義のモチーフ検出を統合し、タンパク質ファミリーにおけるモチーフとドメインの空間的関係や進化的制約を定量的に評価するための、プログラミング不要の計算フレームワークである。
カナダの高齢者コホート研究データを用いて、新しいスパースベイズ量子回帰ニューラルネットワーク手法(Q-FSNet および Q-DirichNet)を開発し、生物学的老化の加速を最小化する代謝物質の「生理学的スイートスポット(最適範囲)」を同定することで、精密医療における健康な老化のメタボロームシグネチャーの発見に貢献しました。