DPGT: A spark based high-performance joint variant calling tool for large cohort sequencing
DPGT は、Apache Spark を基盤とした大規模コホート向けの高効率かつ高精度な結合バリアントコールツールであり、複雑なワークフローを不要にしつつ既存手法と同等の精度を短時間で実現します。
1246 件の論文
バイオインフォマティクスは、膨大な生物学的データをコンピュータの力で解析し、生命の謎を解き明かす分野です。ゲノム情報やタンパク質の構造といった複雑なデータから、新たな発見を引き出すための重要な橋渡し役となっています。
Gist.Science では、bioRxiv から公開される最新のプレプリントをすべて対象に、この分野の論文を網羅的に扱っています。専門的な詳細な要約に加え、難しい専門用語を避け、誰でも理解できる平易な日本語での解説も併せて提供しています。
以下に、bioRxiv から更新されたばかりのバイオインフォマティクスに関する最新論文の一覧を掲載します。
DPGT は、Apache Spark を基盤とした大規模コホート向けの高効率かつ高精度な結合バリアントコールツールであり、複雑なワークフローを不要にしつつ既存手法と同等の精度を短時間で実現します。
本論文は、推論時に解析的なバイアス関数をハミルトニアンに追加するだけで、再学習やアーキテクチャ変更なしにアミノ酸組成や正味の電荷などの特性を連続的かつ予測可能に制御できる新しいタンパク質配列生成モデル「ProtNHF」を提案するものです。
この論文は、単一細胞ゲノミクスデータにおける細胞溶解による環境汚染やライブラリ調製時のバッチ汚染を効果的に除去し、他の手法を上回る性能を示す新しいツール「CellSweep」を提案するものである。
本研究は、組換え率の染色体内変動を考慮し、固定ウィンドウサイズ法の限界を克服するために、分割・結合戦略を用いて全ゲノムアラインメント上で可変ウィンドウサイズを許容する新たな系統ゲノム解析手法を提案し、シミュレーションおよび実データ解析においてその有効性を示しました。
本論文は、タンパク質やゲノムなどの生物学的基盤モデルにおけるスパース自動符号化器(SAE)の適用を体系的にレビューし、モデルが解釈可能な生物学的特徴を学習していることを示す一方で、既存注釈との単純な一致に依存する検証の限界を指摘し、実験的検証による真の生物学的メカニズムの解明を提唱しています。
本論文は、深層学習を活用してヒトタンパク質中の短鎖リニアモチーフ(SLiM)を高精度に予測し、既存の手法による偽陽性を約 80% 削減するとともに、未知のモチーフの発見やタンパク質間相互作用の精密な予測を可能にする新しいツール「SLiMMine」を提案し、その Web サーバーを公開したものである。
本論文は、21 年間にわたる Gene Ontology の公開リリースを時系列データとして分析し、その構造とアノテーションの継続的な成長と再編成を明らかにするとともに、2017 年頃から成熟期に入り安定化の傾向が見られることを示すことで、GO に基づく研究の再現性とデータ再利用を支援する枠組みを提供しています。
本論文は、エヒノコックス症の主要な治療標的である脂肪酸結合タンパク質(FABP)を標的としたコンピュータシミュレーションによる創薬候補の探索と、その中から選定された既存薬(塩化チアジドなど)の蛍光置換アッセイによる実験的検証を通じて、無視されがちな熱帯病に対する新規治療法の開発可能性を示したものである。
本論文は、単一細胞データから細胞分化の連続的な軌道を再構築し、運命決定を予測するとともに、遺伝子干渉による運命の可塑性を定量化する、潜在空間熱力学モデル「LSD」を提案するものである。
本研究は、疑似アライメントや EM 法などのコアアルゴリズムを GPU 向けに再設計した RNA-seq 解析ツール「kallisto」の GPU 実装を開発し、従来のマルチスレッド CPU 版と比較して 30〜50 倍の高速化を実現し、典型的なサンプルの解析を数分ではなく数秒で完了させることを示しています。