Protein sequence domain annotation using a language model
本論文は、事前学習されたタンパク質言語モデル(ESM-2)と構造確率デコーダを組み合わせた「PSALM」という手法を提案し、従来の HMMER と同等の感度・特異度 tradeoff を達成しつつ、特に緩和された閾値条件下で UniProtKB におけるドメインアノテーションのカバレッジを向上させることを示しています。
1242 件の論文
バイオインフォマティクスは、膨大な生物学的データをコンピュータの力で解析し、生命の謎を解き明かす分野です。ゲノム情報やタンパク質の構造といった複雑なデータから、新たな発見を引き出すための重要な橋渡し役となっています。
Gist.Science では、bioRxiv から公開される最新のプレプリントをすべて対象に、この分野の論文を網羅的に扱っています。専門的な詳細な要約に加え、難しい専門用語を避け、誰でも理解できる平易な日本語での解説も併せて提供しています。
以下に、bioRxiv から更新されたばかりのバイオインフォマティクスに関する最新論文の一覧を掲載します。
本論文は、事前学習されたタンパク質言語モデル(ESM-2)と構造確率デコーダを組み合わせた「PSALM」という手法を提案し、従来の HMMER と同等の感度・特異度 tradeoff を達成しつつ、特に緩和された閾値条件下で UniProtKB におけるドメインアノテーションのカバレッジを向上させることを示しています。
本研究では、新規質量分析解析ツール PIPI-C を用いてがんのタンパク質レベルでのアミノ酸置換を網羅的にプロファイリングする「アミノ酸置換オミクス」を提案し、ゲノムやトランスクリプトームでは検出されない多数の新たな置換を同定するとともに、がんの生物学的意義や薬剤耐性・免疫逃避のメカニズムの解明に貢献する堅牢な枠組みを確立しました。
本論文は、バイオインフォマティクス解析を通じて、ITGB1 遺伝子の過剰発現が 12 種類の癌において予後不良や化学・免疫療法耐性と強く関連していることを明らかにし、癌の進行予測および治療ターゲットとしての臨床的有用性を示唆しています。
この論文は、がんオミクス研究において深層表現学習(特に変分オートエンコーダ)がサブタイピングや予後予測に広く活用されているものの、縦断データの不足によりがんの時間的動態の解明が限られている現状をレビューし、生成モデルとしての VAE 活用による時間軸を考慮したがん研究の重要性を提言しています。
本論文は、リガンド誘導型の機能ターゲットに基づいてタンパク質の配列と構造を同時に設計する大規模基盤モデル「EnzyGen2」を提案し、その計算機ベンチマークでの卓越した性能と、天然酵素に匹敵する新規酵素の実験的創製成功を報告しています。
この論文は、eCLIP データを用いた RNA 結合タンパク質の結合変化を、発現量の変化と技術的変動を適切に区別・補正しながら統計的に厳密に解析するための新フレームワーク「Flipper」を提案し、既存手法よりも優れた感度と精度を有することを示しています。
この論文は、空間トランスクリプトミクスデータから得られたサブセルラー細胞間相互作用の情報を学習し、非空間的な単一細胞 RNA シーケンシングデータから細胞質や核などのサブセルラー領域に特化した細胞間相互作用を階層的モデル「CCIDeconv」を用いて高精度に推定する手法を提案しています。
本研究は、単細胞ラテン多様体モデルを用いて歯周炎の転写履歴と不可逆性を定量化し、組織修復の可否を判断する新たな指標「再生許可指数(RPI)」を提唱することで、精密再生医療の意思決定に寄与する定量的基盤を確立した。
本研究は、全ゲノム STARR-seq データを用いて再学習可能な深層学習フレームワーク「BlueSTARR」を開発し、非コード領域の変異による遺伝子発現調節への影響を予測するとともに、選択圧や薬剤処理に応じた結合パターンなどの生物学的なシグナルを抽出できることを示しました。
本論文では、ESM-2 によるタンパク質言語モデルの埋め込み表現と機械学習を組み合わせ、構造化タンパク質上の内在性無秩序タンパク質(IDP)結合部位をアミノ酸残基レベルで高精度に予測する新しい手法「IDBSpred」を開発し、その有効性を示しました。