Predicting peptide aggregation with protein language model embeddings
本論文は、事前学習済みタンパク質言語モデルの埋め込みを用いた転移学習モデル「PALM」を開発し、小規模データセットでも凝集予測で競合する性能を発揮する一方、単一変異の影響予測のような難易度の高いタスクにはより大規模な実験データが必要であることを示しています。
1250 件の論文
バイオインフォマティクスは、膨大な生物学的データをコンピュータの力で解析し、生命の謎を解き明かす分野です。ゲノム情報やタンパク質の構造といった複雑なデータから、新たな発見を引き出すための重要な橋渡し役となっています。
Gist.Science では、bioRxiv から公開される最新のプレプリントをすべて対象に、この分野の論文を網羅的に扱っています。専門的な詳細な要約に加え、難しい専門用語を避け、誰でも理解できる平易な日本語での解説も併せて提供しています。
以下に、bioRxiv から更新されたばかりのバイオインフォマティクスに関する最新論文の一覧を掲載します。
本論文は、事前学習済みタンパク質言語モデルの埋め込みを用いた転移学習モデル「PALM」を開発し、小規模データセットでも凝集予測で競合する性能を発揮する一方、単一変異の影響予測のような難易度の高いタスクにはより大規模な実験データが必要であることを示しています。
この論文は、ゲノムグラフへのシーケンスアライメントとネットワークフロー定式化を用いて、従来のリニア参照配列に基づく手法や単純なグラフノード推定よりも精度を大幅に向上させたコピー数バリエーション(CN)推定ツール「Floco」を提案し、その有効性を複数のデータセットで実証したものである。
本論文では、従来のアライメント手法に比べて計算コストが大幅に低く、大規模なウイルスシーケンスデータから高精度に変異を検出・解析できる新しいアライメントフリーフレームワーク「bronko」を開発し、その性能と実用性を示しました。
この論文は、腫瘍と正常組織の共有エピジェネティックプログラムや細胞混合による信号の希薄化という課題を克服するため、ゲノムワイドなメチル化データと転写データを統合した背景を考慮した発見プラットフォームを開発し、大腸がんや肝細胞がんなど複数の癌種において、PCR ベースの臨床検査に適用可能な高感度な DNA メチル化バイオマーカーを同定したことを報告しています。
本論文は、モデル生物から系統発生的に遠い生物まで、ミトコンドリア標的配列予測のみに依存せず、相同性検索や系統解析などの多様な証拠を統合的に評価する新パイプライン「CoMR」を開発し、その高い精度と汎用性を示したものである。
この論文は、組換えバコードを用いた実験的アプローチと、それを隠れマルコフモデルで解析する DemuxHMM という計算手法を組み合わせることで、従来の限界を超えた大規模かつ高解像度な単一細胞胚発現データの生成を可能にする統合フレームワークを提案しています。
この論文は、ノイズや外れ値に強いベータ発散に基づくオートエンコーダ「RSTG」を提案し、限られた空間トランスクリプトミクスデータから高品質な合成データを生成して細胞位置の回復やノイズ耐性を向上させる手法を報告しています。
本論文は、既存のモデルが抱えるデータ不足や固定長への制約といった課題を解決するため、siRNA-mRNA 二重鎖をグラフとして扱い自己教師あり学習を駆使した深層学習アーキテクチャ「OligoGraph」を提案し、既知・未知のデータセットにおいて既存の最先端モデルを上回る siRNA 効率予測性能を実証したものである。
本論文は、多オミクス解析と分子動力学シミュレーションを統合し、食道がんおよび胃癌において転写・RNA 処理・複製ストレスに関与する内在性無秩序タンパク質が形成する生体分子凝縮体ががんの生存に不可欠なコア脆弱性として機能していることを明らかにし、これを標的とした治療戦略の可能性を示しました。
この論文は、遺伝子の機能注釈に基づいて異なる発現類似度指標を重み付け統合し、最適化された「統合類似度スコア(ISS)」を開発することで、遺伝子対の類似性検出精度の向上と未分類酵母遺伝子の機能予測を実現したことを報告しています。