METRIN-KG: A knowledge graph integrating plant metabolites, traits, and biotic interactions
本論文は、植物の代謝物、形質、生物間相互作用という多様で異質なデータを統合し、生命科学研究における新たな問いの発見を支援する知識グラフ「METRIN-KG」を提案するものである。
1235 件の論文
バイオインフォマティクスは、膨大な生物学的データをコンピュータの力で解析し、生命の謎を解き明かす分野です。ゲノム情報やタンパク質の構造といった複雑なデータから、新たな発見を引き出すための重要な橋渡し役となっています。
Gist.Science では、bioRxiv から公開される最新のプレプリントをすべて対象に、この分野の論文を網羅的に扱っています。専門的な詳細な要約に加え、難しい専門用語を避け、誰でも理解できる平易な日本語での解説も併せて提供しています。
以下に、bioRxiv から更新されたばかりのバイオインフォマティクスに関する最新論文の一覧を掲載します。
本論文は、植物の代謝物、形質、生物間相互作用という多様で異質なデータを統合し、生命科学研究における新たな問いの発見を支援する知識グラフ「METRIN-KG」を提案するものである。
この論文は、ラベル付き訓練データの不足や複雑な超微細構造の分割精度という課題を克服し、臨床病理および生物医学研究における画像解析の負担を大幅に軽減する深層学習フレームワーク「TEAMKidney」を提案し、腎疾患患者および動物モデルの TEM 画像から糸球体基底膜や足突起の超微細構造を正確に定量化できることを示しています。
本論文では、天然アミノ酸に限定されるタンパク質モデルや化学モデルの限界を克服し、1 億以上の分子で学習された「PeptideCLM-2」という化学言語モデルの suite を提案し、治療用ペプチドの膜透過性、腫瘍ターゲティング、半減期などの開発指標予測において既存手法を上回る性能を実現したことを報告しています。
本研究は、エピトープ特定から生成、スコアリング、実験的検証までのエージェント支援ワークフローを用いて、実験構造や既知の抗体情報なしに新規がんターゲットに対するナノボディー結合体を設計し、ナノモルからサブナノモルレベルの親和性を持つ結合体を成功裏に獲得したことを示しています。
本研究は、GENCODE アノテーションの安定したサブセットを用いた不確実性意識ベンチマークと拡張特徴量解析により、mRNA と lncRNA の分類におけるツール間の不一致や誤分類の要因を解明し、より頑健な分類器の開発と分類不確実性の解釈に実用的な指針を提供する新たな枠組みを提示しました。
本研究は、タンパク質および代謝物データを統合してサンプル固有の代謝グラフを再構築し、その構造に基づいて大規模言語モデルを微調整するとともに、実験的証拠に基づく仮説探索(Oracle-in-the-Loop 推論)を通じて各推論ステップを検証する AI システム「PathwaySeeker」を開発し、非モデル生物 Trametes versicolor のデータを用いて、実験的に確認された代謝経路と検証が必要な仮説を明確に区別する新たなアプローチを提案したものである。
この論文は、ヒト細胞アトラスのデータに品質管理、アノテーション、正規化、解析レイヤーを追加する包括的なツール「cellNexus」を開発し、研究間での頑健な統計モデリングや大規模な生物学的発見を可能にする分析準備済みのデータ基盤を構築したことを報告しています。
本論文は、TCR-pMHC 結合のウェットラボ検証コストを削減するため、不確実性と多様性を組み合わせた能動学習戦略「UDAL」を提案し、限られた実験予算でランダムサンプリングよりも効率的に予測モデルの精度を向上させることを実証しています。
本論文は、HLA アレルやコホート層におけるデータ偏りによる予測格差を解消するため、グループ分布ロバスト最適化(GDRO)フレームワーク「FairTCR」を提案し、最悪グループの性能を維持しつつ平均性能を低下させずに公平性を大幅に向上させたことを示しています。
本論文は、プロファイル隠れマルコフモデルと再帰的拡張戦略を採用することで、de novo 生成されたリピートモデルの感度と完全性を向上させ、断片化や高度な変異を起こした反復配列の再構築を可能にする新規手法「RRE(Recursive Repeat Extender)」を提案し、その有効性を示したものである。