snputils: A High-Performance Python Library for Genetic Variation and Population Structure
本論文は、大規模な遺伝子データ解析における形式非互換性や計算効率の課題を解決し、生物銀行規模の研究に適した高効率な I/O、変換、統計解析機能を統合したオープンソースの Python ライブラリ「snputils」を紹介するものである。
769 件の論文
バイオインフォマティクスは、膨大な生物学的データをコンピュータの力で解析し、生命の謎を解き明かす分野です。ゲノム情報やタンパク質の構造といった複雑なデータから、新たな発見を引き出すための重要な橋渡し役となっています。
Gist.Science では、bioRxiv から公開される最新のプレプリントをすべて対象に、この分野の論文を網羅的に扱っています。専門的な詳細な要約に加え、難しい専門用語を避け、誰でも理解できる平易な日本語での解説も併せて提供しています。
以下に、bioRxiv から更新されたばかりのバイオインフォマティクスに関する最新論文の一覧を掲載します。
本論文は、大規模な遺伝子データ解析における形式非互換性や計算効率の課題を解決し、生物銀行規模の研究に適した高効率な I/O、変換、統計解析機能を統合したオープンソースの Python ライブラリ「snputils」を紹介するものである。
本論文は、オックスフォード・ナノポア技術を用いたタンデムリピート遺伝子型決定ツールの包括的な評価を行い、単なる長さの精度だけでなく配列レベルの精度や実用性を多角的に検証した結果、特定のツールが全領域で優れているわけではないものの、配列レベルの評価が臨床診断や集団研究における適切なツール選定に不可欠であることを示した。
本論文は、環境隔離や前処理の自動化、大規模データへのスケーラブルな推論、および標準化された評価機能を提供する、シングルセル・ファウンデーションモデルのゼロショット推論のための統合フレームワーク「scUnify」を提案するものである。
本論文は、メタ学習フレームワーク STUNT を用いた微生物叢に基づく疾患分類の評価において、極端なデータ不足時のみ限定的な利点が認められるものの、サンプル数が増加すると逆に性能が低下し、メタ学習による表現がタスク固有の信号へのアクセスを制限するボトルネックとなることを示し、分類成功の主要因は内在的な生物学的シグナルの強さであることを明らかにした。
本論文は、スケッチングアルゴリズムと GPU 加速を活用して、従来の手法より最大 1000 倍高速化され、数百万サンプルと数十億の分類群を処理可能であり、かつ実データにおいて統計的に同等の精度を維持する新しいマイクロバイオーム解析アルゴリズム「DartUniFrac」を提案するものである。
本論文は、単一細胞および空間トランスクリプトミクスデータにおける細胞タイプ注釈の精度と計算効率を向上させるため、遺伝子発現の順位情報に基づく効率的な参照マッピング手法「RankMap」を開発し、既存手法と比較して大規模データセットにおいても優れた性能と高速性を示したことを報告しています。
本論文は、深層表現学習と特殊な転写組学補正法を組み合わせることで、組織サンプル間のバッチ効果に頑健に形態、転写、空間情報を統合し、細胞タイプごとにクラスタリングする新しいフレームワークを提案し、複数の空間転写組学データセットにおいて既存手法を大幅に上回る性能を示したものである。
本研究は、AI による抗体 - 抗原構造予測の信頼性スコアが構造的に妥当な誤った組み合わせと正しい結合を区別できないことを示し、内部スコアではなく現実的なデコイに対する検証と独立した試行の増加が重要であると結論付けています。
本論文は、単細胞基盤モデルの内部表現にスパースオートエンコーダを適用することで、生物学的・技術的な信号を解釈可能な特徴として抽出し、モデルの挙動を制御可能にする手法を提案するものである。
この論文は、従来の遺伝子レベルの解析では見逃されてきたスプライシングバリアントを考慮し、心臓組織データから新たな転写因子アイソフォーム間の調節相互作用を解明する初の GRN 推論パイプライン「AlterNet」を提案するものである。