Benchmarking 80 binary phenotypes from the openSNP dataset using deep learning algorithms and polygenic risk score tools
この論文は、openSNP データセットから抽出された 80 の二値表現型を用いて、機械学習・深層学習アルゴリズムと多遺伝子リスクスコアツールをベンチマークし、表現型によってそれぞれが異なる性能を発揮することを明らかにしたものである。
1246 件の論文
バイオインフォマティクスは、膨大な生物学的データをコンピュータの力で解析し、生命の謎を解き明かす分野です。ゲノム情報やタンパク質の構造といった複雑なデータから、新たな発見を引き出すための重要な橋渡し役となっています。
Gist.Science では、bioRxiv から公開される最新のプレプリントをすべて対象に、この分野の論文を網羅的に扱っています。専門的な詳細な要約に加え、難しい専門用語を避け、誰でも理解できる平易な日本語での解説も併せて提供しています。
以下に、bioRxiv から更新されたばかりのバイオインフォマティクスに関する最新論文の一覧を掲載します。
この論文は、openSNP データセットから抽出された 80 の二値表現型を用いて、機械学習・深層学習アルゴリズムと多遺伝子リスクスコアツールをベンチマークし、表現型によってそれぞれが異なる性能を発揮することを明らかにしたものである。
MapMyCells は、Allen 脳科学研究所や BRAIN 計画などが作成した高品質な脳細胞参照分類体系に、最小限の前処理で多様な単一細胞オミクスデータを効率的かつ再現性高くマッピングし、種やモダリティを越えた細胞タイプの注釈付けと統合を可能にするオープンソースフレームワークである。
本論文は、単一細胞プロテオミクスにおける欠損値補完や循環的分析の必要性を排除し、バッチ効果の補正なしに高い分類精度を達成する新しい分類パイプライン「NIFty」を提案するものである。
CLASP は、タンパク質のアミノ酸配列、3 次元構造、および機能記述テキストという 3 つのモダリティを対照学習と大規模言語モデルを統合して学習するユニファイドフレームワークであり、最先端の手法を上回るゼロショット分類や検索タスクを可能にします。
この論文は、Python の scverse エコシステムで普及している H5AD 形式の単一細胞トランスクリプトミクスデータを R 環境でネイティブに読み書き・変換可能にするパッケージ「anndataR」を開発し、両言語間の相互運用性を向上させたことを報告しています。
この論文は、哺乳類および霊長類の感染性を予測するための遺伝子配列データセットを大幅に拡張・標準化し、機械学習モデルの性能評価において分類タスクの難易度が宿主の分類群の広さや訓練データとテストデータの系統距離に依存することを示すとともに、異なるウイルス科間での予測が現状では困難であることを明らかにしたものである。
MiRformer は、長い mRNA 配列を効率的に処理するスライディングウィンドウ注意機構を備えた双トランスフォーマーアーキテクチャを採用し、mRNA 条件付き miRNA の生成、結合部位の特定、および相互作用予測において最先端の性能と生物学的解釈性を両立する統合生成フレームワークです。
本研究は、生物学的データに内在するノイズや変動を確率的にモデル化し、パラメータ推定、予測、実験設計を効率化するための高速かつ柔軟なオープンソースソフトウェア「Stochastic System Identification Toolkit (SSIT)」を開発し、その機能を酵母および乳がん細胞の単一細胞データを用いて実証したものである。
この論文は、PhyloNetworks や PhyloNet などの最先端ツールを統合し、HPC 環境におけるタスクパッケージングやデータ再利用、並列実行を通じて、大規模な系統ネットワーク解析の効率性と再現性を飛躍的に向上させる新しいフレームワーク「HP2NET」を提案し、デングウイルスのゲノム解析による実証を通じてその有用性を示したものである。
本論文は、多発性硬化症(MS)における B 細胞受容体レパートリーの特徴を解明するため、臨床および技術的メタデータを統合した世界初の公衆アクセス可能なデータベース「MS-BCR-DB」を開発し、EB ウイルスや中枢神経系自己タンパク質を認識する抗体の同定など、病態メカニズムの解明とバイオマーカー開発への基盤を提供したことを報告しています。