PanXpress: Gene expression quantification with a pan-transcriptomic gapped k-mer index
PanXpress は、バクテリアのゲノム配列と注釈ファイルから直接パン転写体を構築・インデックス化し、アラインメント不要で混合株を含む複雑なサンプルから高精度かつ高速に遺伝子発現を定量化する統合フレームワークである。
1244 件の論文
バイオインフォマティクスは、膨大な生物学的データをコンピュータの力で解析し、生命の謎を解き明かす分野です。ゲノム情報やタンパク質の構造といった複雑なデータから、新たな発見を引き出すための重要な橋渡し役となっています。
Gist.Science では、bioRxiv から公開される最新のプレプリントをすべて対象に、この分野の論文を網羅的に扱っています。専門的な詳細な要約に加え、難しい専門用語を避け、誰でも理解できる平易な日本語での解説も併せて提供しています。
以下に、bioRxiv から更新されたばかりのバイオインフォマティクスに関する最新論文の一覧を掲載します。
PanXpress は、バクテリアのゲノム配列と注釈ファイルから直接パン転写体を構築・インデックス化し、アラインメント不要で混合株を含む複雑なサンプルから高精度かつ高速に遺伝子発現を定量化する統合フレームワークである。
本論文は、大規模言語モデル(LLM)を活用して形態データ行列の抽出と標準化を自動化する AI 支援ツールを開発・実装し、MorphoBank におけるデータキュレーションの効率化と FAIR 原則への準拠を促進する手法を提案しています。
本論文は、自己調節メカニズムを持つタンパク質を体系的に同定し、334 万件の抄録から 9 万 7 千以上のレコードを抽出した 2 段階トランスフォーマーモデル「SOORENA」を開発し、文献マイニングとシステム生物学を架橋する新たなリソースを提供したことを報告しています。
本論文は、単一細胞 RNA シーケンシングデータの細胞および遺伝子グラフを多スケールでモデル化し、エキスパート混合アーキテクチャを用いて融合することで、ノイズに強く構造を保存する低次元表現を学習し、細胞クラスタリングや遺伝子発現補完などのタスクにおいて最先端の手法を上回る性能を示す「GatorSC」という統一的な表現学習フレームワークを提案するものである。
ザグ隕石から得られた核酸配列は既知の生物学的文法や技術的アーティファクトでは説明できない独特の構造を示すが、その起源は依然として不明であり、さらなる検証が必要である。
この研究では、大規模言語モデル(LLM)を用いてエウイング肉腫の病理報告書から構造化データを高精度に抽出し、NSE 陽性が悪予後、S100 陽性が良好な予後と関連することを示すことで、従来の臨床因子に加え組織学的特徴をリスク層別化に統合する可能性を提示しました。
FlashS は、空間トランスクリプトミクスデータにおける空間的に変異する遺伝子の検出を周波数領域へ移行させることで、大規模アトラススケールでも高精度かつ計算効率的に実行可能な新しい手法を提案し、既存の手法を凌駕する性能を実証しています。
Harmony2 は、特殊なハードウェアを必要とせずに 1 億個以上の細胞や 1,000 以上のデータセットを効率的に統合でき、生物学的な不均一性を維持しつつ過剰な統合を防ぐようにアルゴリズムが最適化された、大規模で複雑な単一細胞データセット統合のための最新ソフトウェアです。
本研究では、低発現かつ従来の手法では検出が困難なエンハンサー由来の融合転写産物を特定するため、クロマチン構造情報をスパイスグラフに統合し、短鎖 RNA-se データから高感度かつ高精度に「ChiMER」と呼ばれるキメラエンハンサー RNA を検出する新たな計算論的フレームワークを開発し、その有効性と潜在的な生物学的意義を実証しました。
本研究では、組織病理画像の埋め込み表現を細胞組成や遺伝子発現などの生物学的特徴に変換し、臨床予後との関連性を評価可能にする新たなフレームワーク「STpath」を開発し、大腸癌および乳癌データセットにおいてその有効性を実証しました。