RNAElectra: An ELECTRA-Style RNA Foundation Model for RNA Regulatory Inference
本論文は、従来のマスク言語モデルの欠点を克服し、ELECTRA 方式の置換トークン検出(RTD)を用いて全位置で密な教師信号を得ることで、RNA の構造や機能、相互作用など多様な調節予測タスクにおいて既存モデルを上回る汎用性と解釈可能性を備えた新しい RNA ファウンデーションモデル「RNAElectra」を提案するものである。
768 件の論文
バイオインフォマティクスは、膨大な生物学的データをコンピュータの力で解析し、生命の謎を解き明かす分野です。ゲノム情報やタンパク質の構造といった複雑なデータから、新たな発見を引き出すための重要な橋渡し役となっています。
Gist.Science では、bioRxiv から公開される最新のプレプリントをすべて対象に、この分野の論文を網羅的に扱っています。専門的な詳細な要約に加え、難しい専門用語を避け、誰でも理解できる平易な日本語での解説も併せて提供しています。
以下に、bioRxiv から更新されたばかりのバイオインフォマティクスに関する最新論文の一覧を掲載します。
本論文は、従来のマスク言語モデルの欠点を克服し、ELECTRA 方式の置換トークン検出(RTD)を用いて全位置で密な教師信号を得ることで、RNA の構造や機能、相互作用など多様な調節予測タスクにおいて既存モデルを上回る汎用性と解釈可能性を備えた新しい RNA ファウンデーションモデル「RNAElectra」を提案するものである。
本論文は、タンパク質、小分子、金属イオン、脂質、核酸の 5 つのモダリティにまたがる 200 万を超える複合体データを用いて訓練された幾何学的深層学習モデル「ATOMICA」を提案し、分子間相互作用の普遍的な表現を学習することで、暗黒プロテオームにおけるリガンド予測やタンパク質ポケットの機能解析など、多様な生物学的タスクで高い性能を発揮することを示しています。
AlphaFold2 と ESMfold による予測構造データベースを統合・クラスタリングし、メタゲノムデータから多数の未知のドメイン折りたたみ構造や組み合わせを発見することで、タンパク質構造宇宙の未踏領域を解明した研究です。
本論文は、多様な生物多様性データの統合を可能にするモジュール型オープンソースフレームワーク「BiOS」を提案し、その API と Web インターフェースを通じて FAIR 原則に準拠したデータ共有と分析を促進するものである。
この論文は、バルクシーケンシングデータを活用してコピー数変化やサンプル純度を考慮し、単一細胞の体細胞変異検出の精度と不確実性の定量化を向上させる階層的ベイズモデル「SC-BIG」を提案し、既存手法を上回る性能を実証したものである。
この論文は、63 の組織セクションと 1,000 以上の半合成データセットを用いた包括的なベンチマークを通じて、空間ドメイン検出手法の性能を決定づける主要な要因(解像度や細胞の不均一性など)を解明し、手法の選択と開発を支援するモジュール型フレームワークを提案するものである。
本論文は、ゼブラフィッシュ、マウス、ショウジョウバエなど多様な生物種の高解像度データを用いて検証された、胚発生における全細胞の系譜と運命を 99.7% 以上の精度で自動的に再構築する新規の教師なし手法「ITEC」を開発し、形態形成過程の動的な理解や空間トランスクリプトミクスとの関連解明を可能にしたことを報告しています。
本研究は、がんの単一細胞レベルでのコピー数変異解析において、既存の深度情報のみの手法よりも、Tapestri プラットフォームから得られる深度と B アレル頻度の両方を統合的にモデル化する新しい統計手法「scPloidyR」を開発し、アレル情報が利用可能な場合に検出精度が大幅に向上することを示しました。
本論文は、抗菌薬耐性(AMR)の動的変化と部分観測性の下での処方戦略を最適化するため、階層的強化学習が不確実性下での抗菌薬適正使用の政策分析において有効であることを示すシミュレーションフレームワーク「abx_amr_simulator」を開発し、その有用性を検証したものである。
本論文は、コンフォーマル予測を適用することで、質量スペクトルごとの分子構造同定候補リストに「真の分子が含まれる確率」を保証し、分布シフト下でも信頼性と効率性のバランスを制御可能な手法を提案し、MassSpecGym ベンチマークでその有効性を検証したものである。