ITSxRust: ITS region extraction with partial-chain recovery and structured diagnostics for long-read amplicon sequencing
長読長アンプリコンシーケンシングにおける真菌 ITS 領域の抽出効率と頑健性を向上させるため、Rust 製ツール「ITSxRust」を開発し、従来のツールよりも高速かつ高精度な抽出と、部分鎖回復戦略による未抽出リードの再回収を実現したことを報告しています。
769 件の論文
バイオインフォマティクスは、膨大な生物学的データをコンピュータの力で解析し、生命の謎を解き明かす分野です。ゲノム情報やタンパク質の構造といった複雑なデータから、新たな発見を引き出すための重要な橋渡し役となっています。
Gist.Science では、bioRxiv から公開される最新のプレプリントをすべて対象に、この分野の論文を網羅的に扱っています。専門的な詳細な要約に加え、難しい専門用語を避け、誰でも理解できる平易な日本語での解説も併せて提供しています。
以下に、bioRxiv から更新されたばかりのバイオインフォマティクスに関する最新論文の一覧を掲載します。
長読長アンプリコンシーケンシングにおける真菌 ITS 領域の抽出効率と頑健性を向上させるため、Rust 製ツール「ITSxRust」を開発し、従来のツールよりも高速かつ高精度な抽出と、部分鎖回復戦略による未抽出リードの再回収を実現したことを報告しています。
この論文は、腫瘍系統樹の不確実性を不完全な部分順序集合(Posets)の枠組みで定式化し、NP 困難な最大 k-共通誘導不完全部分 Poset 問題を解決する組み合わせアルゴリズム「POTTR」を提案することで、がん進化や発生過程における反復的な遺伝子変異の軌跡を同定する手法を確立したことを述べています。
本論文では、既知の MinHash や FracMinHash の中間的なサイズを持つ部分線形なサマリー(スケッチ)を生成し、保存効率と推定精度のバランスを最適化しながら、大規模な生物学的データセットにおける類似度推定や系統樹構築の効率と精度を向上させる新しいアルゴリズム「MaxGeomHash」を提案し、その理論的性質と実証的有効性を検証しています。
PMGen は、AlphaFold2 に初期推測とテンプレート工学を導入することで、MHC クラス I および II に対する変異長ペプチドの高精度な構造予測を実現し、構造に基づくペプチド設計や機械学習用データ生成を可能にする統合フレームワークです。
本論文は、系統ネットワークにおける多様性最大化という計算困難な問題に対し、多項式時間で解ける新規アルゴリズムと可視化ツール「PaNDA」を開発し、その実用性と半方向系統ネットワークへの拡張可能性を実証したものである。
本研究は、タンパク質の絶対量ではなく相対的な比率(対数比)を特徴量として用いる「タンパク質組成比率表現(PCRR)」を提案し、アルツハイマー病のサブタイプ分類や大規模な疾患予測において、従来の絶対量ベースのモデルを大幅に上回る精度と生物学的解釈性を達成したことを示しています。
KuPID は、kmer スケッチングを用いて長鎖 RNA シーケンスリードを既知のアイソフォームに疑似アライメントする前処理手法であり、動的計画法による完全アライメントの必要性を低減することで、アイソフォーム発見パイプラインの精度を最大 16.7 ポイント向上させつつ実行時間を 2〜3 倍短縮することを可能にします。
本研究は、シークエンス - 機能関係モデルにおけるパラメータの非同一性(ゲージ自由度)を効率的に解決し、数百万のパラメータを持つ大規模モデルの解釈を可能にする Python パッケージ「GaugeFixer」を開発し、翻訳開始の適応度ランドスケープ解析を通じてその有用性を実証したものである。
この論文は、報酬を最大化する従来の強化学習が多様性の欠如に陥るのに対し、報酬に比例してサンプリングを行う GFlowNet を採用することで、明示的な多様性ペナルティなしに構造的に多様な治療用ペプチドを生成できることを示しています。
本研究は、教師モデルの分布を平滑化するラベルスムージングと生物学的に変動する位置に重み付けを行う位置重み付けという、単独では性能を低下させるが組み合わせると相補的に機能する 2 つの正則化手法を用いて大規模なタンパク質言語モデルを小型化し、推論速度の向上や限られたデータでのドメイン適応能力の向上を実現したことを示しています。