PACMON: Pathway-guided Multi-Omics data integration for interpreting large-scale perturbation screens
PACMON は、大規模な摂動スクリーニングから得られるマルチオミクスデータを、既知の生物学的経路と整合する潜在因子モデルを用いて統合・解釈し、摂動が経路プログラムに与える影響をスケーラブルかつ解釈可能に推定する新しいベイズ推論フレームワークである。
768 件の論文
バイオインフォマティクスは、膨大な生物学的データをコンピュータの力で解析し、生命の謎を解き明かす分野です。ゲノム情報やタンパク質の構造といった複雑なデータから、新たな発見を引き出すための重要な橋渡し役となっています。
Gist.Science では、bioRxiv から公開される最新のプレプリントをすべて対象に、この分野の論文を網羅的に扱っています。専門的な詳細な要約に加え、難しい専門用語を避け、誰でも理解できる平易な日本語での解説も併せて提供しています。
以下に、bioRxiv から更新されたばかりのバイオインフォマティクスに関する最新論文の一覧を掲載します。
PACMON は、大規模な摂動スクリーニングから得られるマルチオミクスデータを、既知の生物学的経路と整合する潜在因子モデルを用いて統合・解釈し、摂動が経路プログラムに与える影響をスケーラブルかつ解釈可能に推定する新しいベイズ推論フレームワークである。
TCRseek は、BLOSUM62 に基づくマルチスケール k-mer 埋め込みと FAISS による近似最近傍検索、そして厳密なアライメントによる再ランク付けを組み合わせる 2 段階フレームワークにより、大規模な TCR レパートリーデータに対して、既存手法を凌ぐスケーラビリティと高い検索精度を実現する手法を提案しています。
本論文は、SNP アノテーションツールの選択と遺伝子モデルの違いがタンパク質レベルや経路解析の結果に大きな影響を与えることを示し、より包括的で再現性の高いゲノム解釈のためには複数のツールとモデルを統合する戦略が不可欠であると結論付けています。
dreampy は、単一細胞 RNA シーケンシングデータの擬似バルク解析向けに、バッチ効果や反復測定などの階層構造を処理するための R 製 dreamlet フレームワークの機能を、AnnData や scverse 生態系と統合した形で Python 上でネイティブに実装したものです。
本論文は、ゲノム分類データベースに基づく系統関係を反映した連続ベクトル空間に 16S rRNA 遺伝子配列を埋め込む深層学習モデル「Micro16S」を提案し、系統学的な一貫性と領域不変性を向上させたものの、現在のベンチマーク分類タスクでは古典的機械学習手法に劣るという限界と、将来の改善に向けた課題を明らかにしたものである。
IARC や PharmVar などの多様なデータソースを統合し、発がん物質の代謝活性化・解毒経路、DNA 損傷、遺伝的変異を単一のインタラクティブな知識グラフ「ExposoGraph」として可視化することで、がんリスク評価における遺伝子 - 環境相互作用の体系的な評価と仮説生成を支援するプラットフォームを開発したことを報告しています。
この論文は、5 つの農業データセットにおけるメタ分析データ抽出において、単一の AI エージェントが統計的に人間による抽出と同等の精度を達成し、従来の抽出プロセスのボトルネックを解消する有効性を示したものである。
本論文は、TCGA コホートの 7 種類のがんデータを用いて、bulk 遺伝子発現データから潜在する遺伝子相互作用ネットワークを同時に学習し患者の予後を予測する GNN ベースのフレームワーク「REGEN」を提案し、ネットワーク構築の指針を確立するとともに生物学的妥当性を検証したものである。
本論文は、タンパク質の酸化脆弱性と変異の可否を構造的・化学的・機能的・進化的な観点から統合的に評価し、酸化耐性タンパク質の合理的設計を支援する計算フレームワーク「EvoMut」を開発したことを報告しています。
本論文は、統計的仮定や実装の複雑さにより比較が困難だった46 種類の多遺伝子リスクスコア(PRS)ツールについて、英国バイオバンクのデータを用いた統一的なベンチマークフレームワークを開発し、予測性能だけでなく実行時間やリソース使用量などの実装上の制約も評価することで、ツール間の性能差が統計的手法だけでなく表現型の構造や実用的な制約にも依存することを明らかにしました。