Quantifying Memorization and Privacy Risks in Genomic Language Models

Cet article présente un cadre d'évaluation de confidentialité multi-vecteurs conçu pour quantifier les risques de mémorisation dans les modèles de langage génomique, démontrant que ces modèles mémorisent effectivement des séquences sensibles et que l'audit de sécurité doit combiner plusieurs méthodes pour évaluer pleinement ces risques.

Alexander Nemecek, Wenbiao Li, Xiaoqian Jiang, Jaideep Vaidya, Erman AydayWed, 11 Ma🤖 cs.LG

Controllable Sequence Editing for Biological and Clinical Trajectories

Le papier présente CLEF, un modèle d'édition de séquences contrôlable qui encode les concepts temporels pour modifier de manière ciblée le moment et la portée des conditions dans des trajectoires biologiques et cliniques, surpassant ainsi les méthodes existantes en précision pour la génération de scénarios contrefactuels réalistes.

Michelle M. Li, Kevin Li, Yasha Ektefaie, Ying Jin, Yepeng Huang, Shvat Messica, Tianxi Cai, Marinka ZitnikTue, 10 Ma🤖 cs.LG

How Private Are DNA Embeddings? Inverting Foundation Model Representations of Genomic Sequences

Cette étude démontre que les représentations vectorielles (embeddings) de modèles fondationnels de l'ADN, partagées via des services EaaS, sont vulnérables à des attaques d'inversion permettant de reconstruire avec une grande précision les séquences génomiques sensibles, révélant ainsi des lacunes critiques dans la protection de la vie privée de ces outils.

Sofiane Ouaari, Jules Kreuer, Nico PfeiferTue, 10 Ma🤖 cs.LG

Controlling the joint local false discovery rate is more powerful than meta-analysis methods in joint analysis of summary statistics from multiple genome-wide association studies

Cet article propose une nouvelle méthode d'analyse conjointe basée sur le contrôle du taux de fausses découvertes locales (Jlfdr) qui s'avère plus puissante que les méta-analyses classiques pour l'étude de données hétérogènes issues de multiples études d'association pangénomique (GWAS).

Wei Jiang, Weichuan YuThu, 12 Ma📊 stat

pHapCompass: Probabilistic Assembly and Uncertainty Quantification of Polyploid Haplotype Phase

Le papier présente pHapCompass, un algorithme probabiliste innovant pour l'assemblage de haplotypes chez les organismes polyploïdes, qui quantifie l'incertitude d'assignation des lectures, propose un nouveau workflow de simulation réaliste et démontre des performances compétitives tout en fournissant une estimation précise de l'incertitude de phase.

Marjan Hosseini (School of Computing, University of Connecticut), Ella Veiner (School of Computing, University of Connecticut), Thomas Bergendahl (School of Computing, University of Connecticut), Tala Yasenpoor (School of Computing, University of Connecticut), Zane Smith (Department of Entomology and Plant Pathology, University of Tennessee), Margaret Staton (Department of Entomology and Plant Pathology, University of Tennessee), Derek Aguiar (School of Computing, University of Connecticut, Institute for Systems Genomics, University of Connecticut)Thu, 12 Ma🧬 q-bio

Discovery of a Hematopoietic Manifold in scGPT Yields a Method for Extracting Performant Algorithms from Biological Foundation Model Internals

Cette étude présente la première extraction d'un algorithme biologique compétitif et compact à partir du modèle fondamental scGPT, révélant une variété hématopoïétique interne qui, une fois isolée via une méthode d'interprétabilité mécanistique, surpasse les méthodes existantes en précision et en efficacité tout en nécessitant un nombre négligeable de paramètres à entraîner.

Ihor KendiukhovThu, 12 Ma🧬 q-bio

SNPgen: Phenotype-Supervised Genotype Representation and Synthetic Data Generation via Latent Diffusion

L'article présente SNPgen, un cadre de diffusion latente conditionnelle qui génère des données génétiques synthétiques alignées sur les phénotypes pour préserver la confidentialité tout en permettant une prédiction des maladies complexes aussi précise que les modèles entraînés sur des données réelles.

Andrea Lampis, Michela Carlotta Massi, Nicola Pirastu, Francesca Ieva, Matteo Matteucci, Emanuele Di AngelantonioThu, 12 Ma🧬 q-bio

TrinityDNA: A Bio-Inspired Foundational Model for Efficient Long-Sequence DNA Modeling

Le papier présente TrinityDNA, un modèle fondamental bio-inspiré conçu pour surmonter les défis de la modélisation des séquences d'ADN longues grâce à des mécanismes innovants comme la fusion de sillons et l'attention multi-échelle, offrant ainsi des améliorations significatives pour la prédiction de la fonction des gènes et l'annotation des séquences codantes.

Qirong Yang, Yucheng Guo, Zicheng Liu, Yujie Yang, Qijin Yin, Siyuan Li, Shaomin Ji, Linlin Chao, Xiaoming Zhang, Stan Z. LiMon, 09 Ma💻 cs

LA-MARRVEL: A Knowledge-Grounded, Language-Aware LLM Framework for Clinically Robust Rare Disease Gene Prioritization

Le cadre LA-MARRVEL améliore considérablement la priorisation des gènes dans les maladies rares en intégrant des modèles de langage à base de connaissances et une construction de prompts structurée, offrant ainsi une précision accrue et des explications cliniques auditable sans perturber les pipelines de diagnostic existants.

Jaeyeon Lee, Lin Yao, Hyun-Hwan Jeong, Zhandong LiuMon, 09 Ma🤖 cs.AI

Validating Interpretability in siRNA Efficacy Prediction: A Perturbation-Based, Dataset-Aware Protocol

Cet article propose un protocole de validation par perturbation pour s'assurer que les cartes de saillance utilisées dans la prédiction de l'efficacité des siRNA sont fidèles avant leur application thérapeutique, révélant ainsi des modes d'échec critiques et introduisant un régularisateur biologique (BioPrior) pour améliorer leur fiabilité.

Zahra Khodagholi, Niloofar YousefiMon, 09 Ma🤖 cs.LG

What Topological and Geometric Structure Do Biological Foundation Models Learn? Evidence from 141 Hypotheses

Cette étude démontre, grâce à une validation autonome de 141 hypothèses, que les modèles de fondation biologiques apprennent une structure géométrique et topologique réelle et partagée, bien que localisée principalement dans les tissus immunitaires, qui dépasse la simple métrique euclidienne pour capturer des relations biologiques significatives.

Ihor KendiukhovMon, 09 Ma🤖 cs.LG

Machine Learning for analysis of Multiple Sclerosis cross-tissue bulk and single-cell transcriptomics data

Cette étude présente un pipeline d'apprentissage automatique explicable intégrant des données transcriptomiques en vrac et à l'échelle cellulaire du sang et du liquide céphalo-rachidien pour identifier de nouveaux biomarqueurs et mécanismes moléculaires, notamment liés à l'activation immunitaire et au virus d'Epstein-Barr, dans la pathogenèse de la sclérose en plaques.

Francesco Massafra, Samuele Punzo, Silvia Giulia Galfré, Alessandro Maglione, Simone Pernice, Stefano Forti, Simona Rolla, Marco Beccuti, Marinella Clerico, Corrado Priami, Alina SîrbuMon, 09 Ma🤖 cs.LG

Extending Sequence Length is Not All You Need: Effective Integration of Multimodal Signals for Gene Expression Prediction

L'article propose Prism, un cadre innovant qui intègre efficacement des signaux épigénomiques multimodaux proximaux via une ajustement de type « backdoor » pour prédire l'expression génique avec des performances de pointe, démontrant que l'ajout de séquences longues est moins crucial que la gestion appropriée des signaux multimodaux.

Zhao Yang, Yi Duan, Jiwei Zhu, Ying Ba, Chuan Cao, Bing SuFri, 13 Ma🧬 q-bio