Cancer Driver Gene Discovery: A Patient-Level Statistical Framework
患者ごとの変異負荷のばらつきを考慮し、変異の再発性と機能的影響を統合する確率的グラフィカルモデル「iDriver」を開発し、29 種類のがんにおいて既知および新規のドライバー遺伝子を高精度に同定し、既存の 12 手法を凌駕する性能を実証した。
1250 件の論文
バイオインフォマティクスは、膨大な生物学的データをコンピュータの力で解析し、生命の謎を解き明かす分野です。ゲノム情報やタンパク質の構造といった複雑なデータから、新たな発見を引き出すための重要な橋渡し役となっています。
Gist.Science では、bioRxiv から公開される最新のプレプリントをすべて対象に、この分野の論文を網羅的に扱っています。専門的な詳細な要約に加え、難しい専門用語を避け、誰でも理解できる平易な日本語での解説も併せて提供しています。
以下に、bioRxiv から更新されたばかりのバイオインフォマティクスに関する最新論文の一覧を掲載します。
患者ごとの変異負荷のばらつきを考慮し、変異の再発性と機能的影響を統合する確率的グラフィカルモデル「iDriver」を開発し、29 種類のがんにおいて既知および新規のドライバー遺伝子を高精度に同定し、既存の 12 手法を凌駕する性能を実証した。
本論文は、個人のハプロタイプを情報理論に基づいて選択的に隠蔽しつつグラフの有用性を維持する「PanMixer」というフレームワークを提案し、再識別リスクの低減と下流解析の精度保持を両立させることで、大規模パンゲノム参照のプライバシー懸念を解決し、特に過小評価された集団からの参加を促進する実用的な手法を示しています。
この論文は、大規模な微生物参照ゲノムデータセットのインデックス構築におけるメモリ使用量のボトルネックを解消するため、確率的なフィンガープリント手法を用いてオンザフライで重複するカラーセットを特定・圧縮するモンテカルロアルゴリズムを提案し、限られたメモリとディスク空間で高精度に処理可能であることを示しています。
本論文は、姿勢推定や投影計算を不要とし、合成データを用いた教師あり学習によってノイズの多いクライオ-EM 画像から原子座標を直接予測する畳み込みオートエンコーダと回帰ネットワークの手法を提案し、その有効性を示したものである。
本論文は、多遺伝子リスクスコア(PRS)の公開が個人遺伝情報の復元や匿名性の剥奪につながるリスクを明らかにし、その評価手法と利便性を損なわない共有ソリューションを提案するものである。
この論文は、生物学的に重要な部分配列を優先する「ガイド付きトークン化(GT)」とドメイン知識の活用により、コンパクトなゲノム言語モデルの表現力と分類精度を向上させ、DNA 配列分類や抗菌剤耐性分類などのタスクで効果的であることを示しています。
この論文は、タンパク質間相互作用ネットワークに基づいて遺伝子を順序付けし移動平均を適用する「トランスクリプトグラム」法と PCA を組み合わせることで、単一細胞 RNA シーケンシングデータのノイズを低減し、上皮 - 間葉系転換(EMT)における代謝スイッチや細胞周期の停止、解毒シールドといった従来の解析では見逃されていた機能的な転換モジュールを同定したことを報告しています。
この論文は、配列の局所的な複雑さに応じて動的に区間を分割する「適応型トレースポイント」という手法を提案し、固定長エンコーディングや非圧縮表現と比較して、パangenome アライメントの圧縮率を大幅に向上させつつ、アライメントスコアの劣化なく高速な再構築を可能にすることを示しています。
本論文は、公開生命科学データベースのメタデータキュレーションの遅れを解決するため、オープンウェイト大規模言語モデル(LLM)を用いた自動ワークフローを開発し、アラビダプシス RNA シーケンシングプロジェクトのメタデータ分類において、従来のキーワード検索を大幅に上回る高精度(F1>0.98)を達成し、スケーラブルで再現性のあるデータ再利用の基盤を確立したことを報告しています。
本論文では、腫瘍進行の空間的解析において単一解像度の限界を克服し、階層的な空間集約を通じて生物学的条件間でのマルチスケール構造を統計的に比較可能にする新しいフレームワーク「Wayfarer」を提案し、肺腺がんの Xenium データを用いてその有効性を実証しています。