mRNA-GPT: A Generative Model for Full-Length mRNA Design and Optimization
本研究は、3000 万の天然 mRNA 配列で事前学習され、強化学習を用いて 5' UTR、CDS、3' UTR の長距離依存性と調節相互作用を統合的に最適化することで、半減期や翻訳効率などの多目的性能を向上させた全長 mRNA 設計生成モデル「mRNA-GPT」を提案するものである。
1238 件の論文
バイオインフォマティクスは、膨大な生物学的データをコンピュータの力で解析し、生命の謎を解き明かす分野です。ゲノム情報やタンパク質の構造といった複雑なデータから、新たな発見を引き出すための重要な橋渡し役となっています。
Gist.Science では、bioRxiv から公開される最新のプレプリントをすべて対象に、この分野の論文を網羅的に扱っています。専門的な詳細な要約に加え、難しい専門用語を避け、誰でも理解できる平易な日本語での解説も併せて提供しています。
以下に、bioRxiv から更新されたばかりのバイオインフォマティクスに関する最新論文の一覧を掲載します。
本研究は、3000 万の天然 mRNA 配列で事前学習され、強化学習を用いて 5' UTR、CDS、3' UTR の長距離依存性と調節相互作用を統合的に最適化することで、半減期や翻訳効率などの多目的性能を向上させた全長 mRNA 設計生成モデル「mRNA-GPT」を提案するものである。
本論文は、極端なクラス不均衡に直面する SARS-CoV-2 バリアント分類において、深層学習よりも TF-IDF ベースの k-mer 特徴量を用いた古典的およびハイブリッド機械学習モデル(特に RF-SVM)が、希少変異の検出精度と一般化能力において優れていることを示しています。
この研究は、86 種類の推定設定による SNP 遺伝率の推定値が大幅に変動するにもかかわらず、その変動がポリジニックリスクスコア(PRS)の性能にはほとんど影響を与えないことを示し、遺伝率推定値は設定に依存するパラメータとして解釈すべきであり、PRS 性能は遺伝率入力の変動に対して比較的頑健であることを結論付けています。
本論文は、環状や二本鎖 DNA などの多様な生物学的配列の整合性を検証できるよう、SEGUID チェックサムを拡張し、向きや回転に依存しない新しいバージョン「SEGUID v2」を提案し、マルチプラットフォーム対応のツールとして公開したことを報告しています。
この論文は、マラリア対策における蚊の殺虫剤耐性を評価する際、従来の判別濃度生物試験に加え、より感度の高い強度濃度生物試験のデータを取り入れた新たな数学モデルを開発し、野外の実験小屋試験での蚊の死亡率を高精度に予測することで、耐性モニタリング結果を公衆衛生への影響評価に統合する手法を提案しています。
この論文は、UMI カウント行列に対して分割階層的スペクトルクラスタリングを適用し、正規化カットに基づく木構造の定義とサブサンプリングによる一貫性評価を通じて、単一細胞 RNA シーケンシングデータの安定したクラスタリングを特定する手法を提案し、実データでその有効性を検証したものである。
本論文は、GRCh38 参照ゲノムと HGNC 遺伝子名に基づき、TFxIDF によるベクトル化と畳み込みニューラルネットワーク(CNN)を組み合わせた高精度な遺伝子予測手法を提案し、その性能が最先端レベルであることを示したものである。
本研究は、AlphaFold3 の高速化版パイプラインを開発し、MIBiG データベースに登録された数千の生物合成遺伝子クラスターから数千のタンパク質対を網羅的に解析することで、未解明の分子ネットワークや酵素複合体を同定し、天然物生合成経路の理解を深めるための包括的な予測結果を提供しました。
本論文は、水平遺伝子移転(LGT)ネットワークを比較するための、編集操作に基づく新しい距離指標を提案し、その計算複雑性の解析と実装による有効性を示しています。
この論文は、シミュレーションデータや種・遺伝子型混合実験を用いて 7 つの最先端手法を厳密に評価した結果、どの手法もすべての状況で最適ではないものの、CellBender、DecontX、SoupX が一般的に良好な性能を示すことを明らかにしています。