evedesign: accessible biosequence design with a unified framework
本論文は、機械学習を用いたタンパク質設計の非専門家の利用障壁を解消し、多目的最適化や実験との反復的連携を可能にする統合型オープンソースフレームワーク「evedesign」を提案し、抗体や酵素の設計・発見におけるその有用性を実証したものである。
768 件の論文
バイオインフォマティクスは、膨大な生物学的データをコンピュータの力で解析し、生命の謎を解き明かす分野です。ゲノム情報やタンパク質の構造といった複雑なデータから、新たな発見を引き出すための重要な橋渡し役となっています。
Gist.Science では、bioRxiv から公開される最新のプレプリントをすべて対象に、この分野の論文を網羅的に扱っています。専門的な詳細な要約に加え、難しい専門用語を避け、誰でも理解できる平易な日本語での解説も併せて提供しています。
以下に、bioRxiv から更新されたばかりのバイオインフォマティクスに関する最新論文の一覧を掲載します。
本論文は、機械学習を用いたタンパク質設計の非専門家の利用障壁を解消し、多目的最適化や実験との反復的連携を可能にする統合型オープンソースフレームワーク「evedesign」を提案し、抗体や酵素の設計・発見におけるその有用性を実証したものである。
本論文は、HPC や SSH セッションなどのテキストベースの環境において、複数のタンパク質構造をリアルタイムで対話的に表示・比較分析することを可能にする、ターミナルネイティブな構造可視化ツール「StrucTTY」を提案しています。
本論文は、配列多様性や注記の非統一性により同定が困難であったシトクロム P450 酵素の構造データを、キーワード検索、HMM、構造アライメントを組み合わせたワークフローを用いて網羅的に同定・再注記し、5 つの新規サブファミリーを特定するとともに、標準化された命名法に基づいた厳密にキュレーションされた初の構造リンク登録データベースを構築したものである。
本論文は、SELFIES、分子構造、テキスト記述、および知識グラフからの生物学的相互作用データを統合するマルチモーダル学習フレームワーク「SELFormerMM」を提案し、従来の単一モダリティモデルを上回る分子特性予測性能と、より豊かで生物学的に根拠のある表現学習を実現したことを報告しています。
本論文は、ミニマイザーを用いて連続する k-mer をスーパー k-mer にグループ化し、キャッシュ効率を向上させる「Super Bloom Filter」と、誤判定を大幅に削減する「findere」方式を組み合わせることで、生物配列のストリーミング k-mer 問い合わせにおいて既存のブロッムフィルタを大幅に上回る高速性と精度を実現した手法を提案しています。
本論文は、RNA 二次構造と 5 つの分類システムに基づく系統分類情報を統合し、比較解析や系統駆動研究を支援するキュレーションされたメタデータベース「PhyloRNA」の紹介とその機能について述べています。
本研究は、ライブラリ構築中に生じるプロトコル由来のバイアスを明示的に考慮し、シミュレーションおよび細胞種特異的免疫ペプチドミクスデータを用いた検証を通じて、特に RNase I や MNase などの多様なプロトコルにおいて非標準的 ORF の同定精度と感度を向上させる確率的フレームワーク「RiboBA」を開発したことを報告しています。
この論文は、呼吸器マイクロバイオームデータと臨床情報を統合して XGBoost などの機械学習モデルを構築し、COVID-19 患者の重症度や転帰を高精度に予測・トリアージするための AI 支援ツールの有効性を示したものである。
本研究は、リボソームプロファイリング実験において遺伝子レベルではなくオープンリーディングフレーム(ORF)レベルで翻訳調節を検出・定量化するための統計フレームワーク「DOTSeq」を開発し、ORF 使用率の変化(DOU)と翻訳効率(DTE)を包括的に解析するエンドツーエンドのワークフローを提供することを示しています。
本論文は、核酸合成のバイオセキュリティリスク管理における「懸念配列」の定義の欠如を解消するため、ステークホルダーによる科学的レビューを経て、病原体や毒素の配列を特定するための基準(ルブリック)を策定し、既存のスクリーニングシステム間の合意を高め、バイオセキュリティ政策の基盤となる具体的な定義を提供したものである。