Quantifying Memorization and Privacy Risks in Genomic Language Models

この論文は、ゲノム言語モデル(GLM)が訓練データから特定の配列を記憶するリスクを定量化し、プライバシー漏洩や規制遵守の課題に対処するため、困惑度ベースの検出、カナリア配列の抽出、メンバーシップ推論の 3 つのアプローチを統合した包括的な評価フレームワークを提案し、その有効性を検証したものである。

Alexander Nemecek, Wenbiao Li, Xiaoqian Jiang, Jaideep Vaidya, Erman AydayWed, 11 Ma🤖 cs.LG

Controllable Sequence Editing for Biological and Clinical Trajectories

この論文は、生物学的・臨床的時系列データにおいて、介入のタイミングと影響範囲を制御し、他の変数を保持したまま特定の将来時点での条件付き生成や反事実的推論を可能にする新しい手法「CLEF」を提案し、その有効性を複数のデータセットで実証したものです。

Michelle M. Li, Kevin Li, Yasha Ektefaie, Ying Jin, Yepeng Huang, Shvat Messica, Tianxi Cai, Marinka ZitnikTue, 10 Ma🤖 cs.LG

How Private Are DNA Embeddings? Inverting Foundation Model Representations of Genomic Sequences

本論文は、DNABERT-2、Evo 2、NTv2 といった DNA 基盤モデルから生成された埋め込み表現が、モデル逆転攻撃によって元の遺伝子配列を再構築される脆弱性を有しており、特にトークン単位の埋め込みではほぼ完全な復元が可能であることを実証し、遺伝子データ共有におけるプライバシー保護の重要性を指摘しています。

Sofiane Ouaari, Jules Kreuer, Nico PfeiferTue, 10 Ma🤖 cs.LG

Adversarial Domain Adaptation Enables Knowledge Transfer Across Heterogeneous RNA-Seq Datasets

この論文は、異なる前処理パイプラインやターゲット表現型を持つ異質な RNA-seq データセット間で、敵対的ドメイン適応を用いた深層学習フレームワークを提案し、限られたデータ条件下でもがんタイプや組織タイプの分類精度を向上させることを示しています。

Kevin Dradjat, Massinissa Hamidi, Blaise HanczarTue, 10 Ma🤖 cs.LG

Controlling the joint local false discovery rate is more powerful than meta-analysis methods in joint analysis of summary statistics from multiple genome-wide association studies

この論文は、複数の GWAS 要約統計量を統合解析する際、従来のメタ解析手法よりも高い検出力を持つ新たな手法「Jlfdr(結合局所偽陽性発見率制御)」を提案し、シミュレーションおよび実データ解析を通じてその優位性を証明したものである。

Wei Jiang, Weichuan YuThu, 12 Ma📊 stat

pHapCompass: Probabilistic Assembly and Uncertainty Quantification of Polyploid Haplotype Phase

この論文は、ポリプloidゲノムのハプロタイプアセンブリにおける配列リードの割り当て曖昧さを明示的にモデル化し、確率的なアプローチとグラフ理論を用いてハプロタイプ位相の分布と不確実性を定量化する「pHapCompass」というアルゴリズムを提案し、現実的なポリプloidシミュレーション環境でのベンチマークによりその有効性を示したものである。

Marjan Hosseini (School of Computing, University of Connecticut), Ella Veiner (School of Computing, University of Connecticut), Thomas Bergendahl (School of Computing, University of Connecticut), Tala Yasenpoor (School of Computing, University of Connecticut), Zane Smith (Department of Entomology and Plant Pathology, University of Tennessee), Margaret Staton (Department of Entomology and Plant Pathology, University of Tennessee), Derek Aguiar (School of Computing, University of Connecticut, Institute for Systems Genomics, University of Connecticut)Thu, 12 Ma🧬 q-bio

SNPgen: Phenotype-Supervised Genotype Representation and Synthetic Data Generation via Latent Diffusion

本論文は、GWAS に基づく変異選択と条件付き潜在拡散モデルを組み合わせ、表現型情報を反映した合成遺伝子型データを生成し、プライバシーを保護しつつ下流の予測タスクで実データに匹敵する性能を発揮する「SNPgen」と呼ばれるフレームワークを提案するものである。

Andrea Lampis, Michela Carlotta Massi, Nicola Pirastu, Francesca Ieva, Matteo Matteucci, Emanuele Di AngelantonioThu, 12 Ma🧬 q-bio

Continuous Diffusion Transformers for Designing Synthetic Regulatory Elements

この論文は、U-Net 基盤をトランスフォーマーと 2D CNN エンコーダーに置き換えたパラメータ効率の高い拡散トランスフォーマー(DiT)を提案し、細胞特異的な調節 DNA 配列の生成において、従来モデルよりもはるかに少ないエポック数で収束し、過学習を抑制するとともに、Enformer を報酬モデルとした DDPO 微調整により予測される調節活性を劇的に向上させたことを示しています。

Jonathan Liu, Kia GhodsThu, 12 Ma🧬 q-bio

TrinityDNA: A Bio-Inspired Foundational Model for Efficient Long-Sequence DNA Modeling

本論文は、DNA の構造的特徴や対称性を生物学的知見に基づいて捉える新要素を導入し、進化戦略を用いて原核生物・真核生物の両方のゲノムに適応させることで、長配列 DNA モデルの精度と効率を向上させ、遺伝子機能予測や調節機構の解明などの応用を可能にする新しい基盤モデル「TrinityDNA」を提案しています。

Qirong Yang, Yucheng Guo, Zicheng Liu, Yujie Yang, Qijin Yin, Siyuan Li, Shaomin Ji, Linlin Chao, Xiaoming Zhang, Stan Z. LiMon, 09 Ma💻 cs

LA-MARRVEL: A Knowledge-Grounded, Language-Aware LLM Framework for Clinically Robust Rare Disease Gene Prioritization

LA-MARRVEL は、構造化された表現型に基づくプロンプト設計と知識基盤型 LLM を活用し、既存の希少疾患遺伝子優先順位付けワークフローを改変することなく、臨床的に堅牢で説明可能な診断精度を大幅に向上させる新しいフレームワークを提案しています。

Jaeyeon Lee, Lin Yao, Hyun-Hwan Jeong, Zhandong LiuMon, 09 Ma🤖 cs.AI

Validating Interpretability in siRNA Efficacy Prediction: A Perturbation-Based, Dataset-Aware Protocol

この論文は、siRNA 有効性予測における説明可能性(サリエンシー)の信頼性を検証する新たなプロトコルを提案し、モデルの予測が失敗するケースや逆転したサリエンシーといった潜在的な欠陥を特定することで、治療設計における説明に基づくアプローチの安全性を向上させることを示しています。

Zahra Khodagholi, Niloofar YousefiMon, 09 Ma🤖 cs.LG

What Topological and Geometric Structure Do Biological Foundation Models Learn? Evidence from 141 Hypotheses

この論文は、AI 駆動の大規模仮説検証を通じて、scGPT や Geneformer などの生物基盤モデルが学習する内部表現に、免疫組織など特定の領域で顕著な非自明な幾何的・位相的構造が存在し、モデル間で大域的な形状が共有されるものの、遺伝子レベルの正確な配置は一致しないことを実証している。

Ihor KendiukhovMon, 09 Ma🤖 cs.LG

Machine Learning for analysis of Multiple Sclerosis cross-tissue bulk and single-cell transcriptomics data

この論文は、末梢血単核球と脳脊髄液のトランスクリプトームデータ(バルクおよびシングルセル)を統合した機械学習パイプラインを開発し、XGBoost と SHAP による説明可能な AI 解析を通じて多発性硬化症の患者と健常者を高精度に識別し、従来の発現解析では見逃され得る新たな病態メカニズムやバイオマーカー候補を同定したものである。

Francesco Massafra, Samuele Punzo, Silvia Giulia Galfré, Alessandro Maglione, Simone Pernice, Stefano Forti, Simona Rolla, Marco Beccuti, Marinella Clerico, Corrado Priami, Alina SîrbuMon, 09 Ma🤖 cs.LG

Extending Sequence Length is Not All You Need: Effective Integration of Multimodal Signals for Gene Expression Prediction

本論文は、DNA 配列の長さの延伸ではなく、標的遺伝子近傍のマルチモーダルなエピゲノム信号を、混同効果を軽減するバックドア調整を用いて適切に統合する「Prism」というフレームワークを提案することで、短い配列でも最先端の遺伝子発現予測精度を達成することを示しています。

Zhao Yang, Yi Duan, Jiwei Zhu, Ying Ba, Chuan Cao, Bing SuFri, 13 Ma🧬 q-bio

Cross-Species Antimicrobial Resistance Prediction from Genomic Foundation Models

この論文は、種を超えた抗菌薬耐性予測において、従来の k-mer ベースの手法が限界を持つことを示し、Evo-1-8k-base などのゲノム基盤モデルから抽出した埋め込み表現を、局所的な耐性シグナルを保持する MiniRocket によって集約することで、異なる種間での汎化性能を大幅に向上させることを提案しています。

Huilin TaiFri, 13 Ma🧬 q-bio

A Standardized Framework For Evaluating Gene Expression Generative Models

この論文は、単一細胞遺伝子発現データに対する生成モデルの評価における標準化の欠如と再現性の課題を解決するため、生物学的根拠に基づいた包括的な評価指標とオープンソースフレームワーク「GGE」を提案し、公平な比較と研究の加速を可能にすることを目的としています。

Andrea Rubbi, Andrea Giuseppe Di Francesco, Mohammad Lotfollahi, Pietro LiòFri, 13 Ma🧬 q-bio

ELISA: An Interpretable Hybrid Generative AI Agent for Expression-Grounded Discovery in Single-Cell Genomics

この論文は、scGPT の埋め込み表現と BioBERT による意味検索、LLM による解釈を統合し、生データへの直接アクセスなしに単一細胞トランスクリプトミクスデータから生物学的仮説を導き出す解釈可能なハイブリッド AI エージェント「ELISA」を提案し、既存手法を大幅に上回る性能と生物学的発見への貢献を実証したものである。

Omar CoserFri, 13 Ma🧬 q-bio