Quantifying Memorization and Privacy Risks in Genomic Language Models
この論文は、ゲノム言語モデル(GLM)が訓練データから特定の配列を記憶するリスクを定量化し、プライバシー漏洩や規制遵守の課題に対処するため、困惑度ベースの検出、カナリア配列の抽出、メンバーシップ推論の 3 つのアプローチを統合した包括的な評価フレームワークを提案し、その有効性を検証したものである。
29 件の論文
この論文は、ゲノム言語モデル(GLM)が訓練データから特定の配列を記憶するリスクを定量化し、プライバシー漏洩や規制遵守の課題に対処するため、困惑度ベースの検出、カナリア配列の抽出、メンバーシップ推論の 3 つのアプローチを統合した包括的な評価フレームワークを提案し、その有効性を検証したものである。
この論文は、生物学的・臨床的時系列データにおいて、介入のタイミングと影響範囲を制御し、他の変数を保持したまま特定の将来時点での条件付き生成や反事実的推論を可能にする新しい手法「CLEF」を提案し、その有効性を複数のデータセットで実証したものです。
本論文は、DNABERT-2、Evo 2、NTv2 といった DNA 基盤モデルから生成された埋め込み表現が、モデル逆転攻撃によって元の遺伝子配列を再構築される脆弱性を有しており、特にトークン単位の埋め込みではほぼ完全な復元が可能であることを実証し、遺伝子データ共有におけるプライバシー保護の重要性を指摘しています。
この論文は、異なる前処理パイプラインやターゲット表現型を持つ異質な RNA-seq データセット間で、敵対的ドメイン適応を用いた深層学習フレームワークを提案し、限られたデータ条件下でもがんタイプや組織タイプの分類精度を向上させることを示しています。
この論文は、ゲノムワイド関連解析(GWAS)の主要研究で検出された陽性結果の再現性を定量的に評価するための確率的指標として「再現率(RR)」と「偽非再現率(FIR)」を提案し、その推定手法の精度と予測性能を検証したものである。
この論文は、複数の GWAS 要約統計量を統合解析する際、従来のメタ解析手法よりも高い検出力を持つ新たな手法「Jlfdr(結合局所偽陽性発見率制御)」を提案し、シミュレーションおよび実データ解析を通じてその優位性を証明したものである。
この論文は、ポリプloidゲノムのハプロタイプアセンブリにおける配列リードの割り当て曖昧さを明示的にモデル化し、確率的なアプローチとグラフ理論を用いてハプロタイプ位相の分布と不確実性を定量化する「pHapCompass」というアルゴリズムを提案し、現実的なポリプloidシミュレーション環境でのベンチマークによりその有効性を示したものである。
本論文は、大規模言語モデル(LLM)エージェントとツールを統合した自律型フレームワークを開発し、非構造化のバイオ医学文献からオミクスデータを自動抽出・再解析することで、静的な文献を計算機で再利用可能な実行可能リソースへと変換する手法を提案しています。
この論文は、単細胞基礎モデル「scGPT」の内部機構を解明し、その注意機構から造血系に特化した高性能なコンパクトなアルゴリズムを抽出・実証した世界初の研究であり、既存手法を上回る精度と効率性を達成したことを報告しています。
本論文は、GWAS に基づく変異選択と条件付き潜在拡散モデルを組み合わせ、表現型情報を反映した合成遺伝子型データを生成し、プライバシーを保護しつつ下流の予測タスクで実データに匹敵する性能を発揮する「SNPgen」と呼ばれるフレームワークを提案するものである。
この論文は、U-Net 基盤をトランスフォーマーと 2D CNN エンコーダーに置き換えたパラメータ効率の高い拡散トランスフォーマー(DiT)を提案し、細胞特異的な調節 DNA 配列の生成において、従来モデルよりもはるかに少ないエポック数で収束し、過学習を抑制するとともに、Enformer を報酬モデルとした DDPO 微調整により予測される調節活性を劇的に向上させたことを示しています。
本論文は、DNA の構造的特徴や対称性を生物学的知見に基づいて捉える新要素を導入し、進化戦略を用いて原核生物・真核生物の両方のゲノムに適応させることで、長配列 DNA モデルの精度と効率を向上させ、遺伝子機能予測や調節機構の解明などの応用を可能にする新しい基盤モデル「TrinityDNA」を提案しています。
LA-MARRVEL は、構造化された表現型に基づくプロンプト設計と知識基盤型 LLM を活用し、既存の希少疾患遺伝子優先順位付けワークフローを改変することなく、臨床的に堅牢で説明可能な診断精度を大幅に向上させる新しいフレームワークを提案しています。
この論文は、siRNA 有効性予測における説明可能性(サリエンシー)の信頼性を検証する新たなプロトコルを提案し、モデルの予測が失敗するケースや逆転したサリエンシーといった潜在的な欠陥を特定することで、治療設計における説明に基づくアプローチの安全性を向上させることを示しています。
この論文は、AI 駆動の大規模仮説検証を通じて、scGPT や Geneformer などの生物基盤モデルが学習する内部表現に、免疫組織など特定の領域で顕著な非自明な幾何的・位相的構造が存在し、モデル間で大域的な形状が共有されるものの、遺伝子レベルの正確な配置は一致しないことを実証している。
この論文は、末梢血単核球と脳脊髄液のトランスクリプトームデータ(バルクおよびシングルセル)を統合した機械学習パイプラインを開発し、XGBoost と SHAP による説明可能な AI 解析を通じて多発性硬化症の患者と健常者を高精度に識別し、従来の発現解析では見逃され得る新たな病態メカニズムやバイオマーカー候補を同定したものである。
本論文は、DNA 配列の長さの延伸ではなく、標的遺伝子近傍のマルチモーダルなエピゲノム信号を、混同効果を軽減するバックドア調整を用いて適切に統合する「Prism」というフレームワークを提案することで、短い配列でも最先端の遺伝子発現予測精度を達成することを示しています。
この論文は、種を超えた抗菌薬耐性予測において、従来の k-mer ベースの手法が限界を持つことを示し、Evo-1-8k-base などのゲノム基盤モデルから抽出した埋め込み表現を、局所的な耐性シグナルを保持する MiniRocket によって集約することで、異なる種間での汎化性能を大幅に向上させることを提案しています。
この論文は、単一細胞遺伝子発現データに対する生成モデルの評価における標準化の欠如と再現性の課題を解決するため、生物学的根拠に基づいた包括的な評価指標とオープンソースフレームワーク「GGE」を提案し、公平な比較と研究の加速を可能にすることを目的としています。
この論文は、scGPT の埋め込み表現と BioBERT による意味検索、LLM による解釈を統合し、生データへの直接アクセスなしに単一細胞トランスクリプトミクスデータから生物学的仮説を導き出す解釈可能なハイブリッド AI エージェント「ELISA」を提案し、既存手法を大幅に上回る性能と生物学的発見への貢献を実証したものである。