q-bio.GN artículos | Gist.Science

Quantifying Memorization and Privacy Risks in Genomic Language Models

Este artículo presenta un marco de evaluación de privacidad multi-vectorial diseñado para cuantificar y auditar los riesgos de memorización en modelos de lenguaje genómico, demostrando que estos sistemas pueden memorizar secuencias sensibles y que se requiere una auditoría combinada para evaluar dicha vulnerabilidad de manera integral.

Alexander Nemecek, Wenbiao Li, Xiaoqian Jiang, Jaideep Vaidya, Erman AydayWed, 11 Ma🤖 cs.LG

Controllable Sequence Editing for Biological and Clinical Trajectories

El modelo CLEF introduce un método de edición de secuencias que permite modificar de forma controlada y específica el momento y las variables afectadas en trayectorias biológicas y clínicas, superando significativamente a los métodos existentes en precisión y capacidad de generación de contrafactuales.

Michelle M. Li, Kevin Li, Yasha Ektefaie, Ying Jin, Yepeng Huang, Shvat Messica, Tianxi Cai, Marinka ZitnikTue, 10 Ma🤖 cs.LG

How Private Are DNA Embeddings? Inverting Foundation Model Representations of Genomic Sequences

Este estudio demuestra que los embeddings de modelos fundacionales de ADN, como DNABERT-2, Evo 2 y NTv2, son vulnerables a ataques de inversión que permiten reconstruir secuencias genómicas sensibles con alta precisión, lo que pone en riesgo la privacidad en servicios de embeddings como servicio (EaaS).

Sofiane Ouaari, Jules Kreuer, Nico PfeiferTue, 10 Ma🤖 cs.LG

Adversarial Domain Adaptation Enables Knowledge Transfer Across Heterogeneous RNA-Seq Datasets

Este estudio propone un marco de adaptación de dominio basado en aprendizaje profundo que facilita la transferencia efectiva de conocimiento entre conjuntos de datos heterogéneos de RNA-seq, mejorando significativamente la precisión en la clasificación de tipos de cáncer y tejidos, especialmente en escenarios con datos limitados.

Kevin Dradjat, Massinissa Hamidi, Blaise HanczarTue, 10 Ma🤖 cs.LG

Estimating Reproducibility in Genome-Wide Association Studies

Este artículo propone dos medidas probabilísticas, la Tasa de Reproducibilidad (RR) y la Tasa de Irreproducibilidad Falsa (FIR), para cuantificar y evaluar el comportamiento de las asociaciones positivas en estudios de replicación dentro de los estudios de asociación del genoma completo (GWAS).

Wei Jiang, Jing-Hao Xue, Weichuan YuThu, 12 Ma📊 stat

Controlling the joint local false discovery rate is more powerful than meta-analysis methods in joint analysis of summary statistics from multiple genome-wide association studies

Los autores proponen un nuevo método de análisis conjunto basado en el control de la tasa local de falsos descubrimientos conjunta (Jlfdr) que demuestra ser más potente y efectivo que los métodos tradicionales de metaanálisis para identificar variantes genéticas asociadas en estudios de asociación del genoma completo (GWAS), especialmente al analizar conjuntos de datos heterogéneos.

Wei Jiang, Weichuan YuThu, 12 Ma📊 stat

pHapCompass: Probabilistic Assembly and Uncertainty Quantification of Polyploid Haplotype Phase

El artículo presenta pHapCompass, un algoritmo probabilístico que resuelve el ensamblaje de haplotipos en genomas poliploides modelando la ambigüedad en la asignación de lecturas para cuantificar la incertidumbre de la fase, ofreciendo además un flujo de trabajo de simulación realista y métricas de evaluación generalizadas.

Marjan Hosseini (School of Computing, University of Connecticut), Ella Veiner (School of Computing, University of Connecticut), Thomas Bergendahl (School of Computing, University of Connecticut), Tala Yasenpoor (School of Computing, University of Connecticut), Zane Smith (Department of Entomology and Plant Pathology, University of Tennessee), Margaret Staton (Department of Entomology and Plant Pathology, University of Tennessee), Derek Aguiar (School of Computing, University of Connecticut, Institute for Systems Genomics, University of Connecticut)Thu, 12 Ma🧬 q-bio

Omics Data Discovery Agents

Este artículo presenta un marco basado en agentes de IA que automatiza la recuperación, extracción y reanálisis de datos ómicos dispersos en la literatura biomédica, transformando la información estática en un recurso ejecutable y consultable para facilitar la reutilización de datos a gran escala.

Alexandre Hutton, Jesse G. MeyerThu, 12 Ma🧬 q-bio

Discovery of a Hematopoietic Manifold in scGPT Yields a Method for Extracting Performant Algorithms from Biological Foundation Model Internals

Este artículo presenta el descubrimiento y la extracción de un algoritmo compacto y de alto rendimiento para el análisis hematopoyético a partir del modelo fundacional scGPT mediante interpretabilidad mecánica, logrando resultados superiores a métodos existentes con una eficiencia computacional y de parámetros significativamente mayor.

Ihor KendiukhovThu, 12 Ma🧬 q-bio

SNPgen: Phenotype-Supervised Genotype Representation and Synthetic Data Generation via Latent Diffusion

El artículo presenta SNPgen, un marco de difusión latente condicional que genera genotipos sintéticos supervisados por fenotipos, logrando un rendimiento predictivo comparable al de datos reales para enfermedades complejas mientras garantiza la privacidad y preserva las estructuras genéticas clave.

Andrea Lampis, Michela Carlotta Massi, Nicola Pirastu, Francesca Ieva, Matteo Matteucci, Emanuele Di AngelantonioThu, 12 Ma🧬 q-bio

Continuous Diffusion Transformers for Designing Synthetic Regulatory Elements

Este trabajo presenta un modelo eficiente de Difusión Transformer (DiT) que genera secuencias de ADN regulador específicas de tipo celular con una convergencia más rápida y menos memorización que los enfoques anteriores, mejorando además significativamente la actividad reguladora predicha mediante ajuste fino con DDPO.

Jonathan Liu, Kia GhodsThu, 12 Ma🧬 q-bio

TrinityDNA: A Bio-Inspired Foundational Model for Efficient Long-Sequence DNA Modeling

El artículo presenta TrinityDNA, un modelo fundamental bioinspirado que integra componentes informados biológicamente y estrategias de entrenamiento evolutivo para modelar secuencias de ADN largas con mayor precisión y eficiencia, superando las limitaciones de los enfoques tradicionales en aplicaciones genómicas.

Qirong Yang, Yucheng Guo, Zicheng Liu, Yujie Yang, Qijin Yin, Siyuan Li, Shaomin Ji, Linlin Chao, Xiaoming Zhang, Stan Z. LiMon, 09 Ma💻 cs

LA-MARRVEL: A Knowledge-Grounded, Language-Aware LLM Framework for Clinically Robust Rare Disease Gene Prioritization

El artículo presenta LA-MARRVEL, un marco basado en modelos de lenguaje grande que mejora significativamente la priorización de genes en enfermedades racas mediante la incorporación de conocimiento clínico y la generación de explicaciones audibles alineadas con las normas ACMG.

Jaeyeon Lee, Lin Yao, Hyun-Hwan Jeong, Zhandong LiuMon, 09 Ma🤖 cs.AI

Validating Interpretability in siRNA Efficacy Prediction: A Perturbation-Based, Dataset-Aware Protocol

Este artículo presenta un protocolo de validación basado en perturbaciones para garantizar la fiabilidad de los mapas de saliencia en la predicción de la eficacia del ARNsi, revelando modos de fallo ocultos y proponiendo un regularizador biológico que mejora la confianza en el diseño terapéutico antes de la síntesis.

Zahra Khodagholi, Niloofar YousefiMon, 09 Ma🤖 cs.LG

What Topological and Geometric Structure Do Biological Foundation Models Learn? Evidence from 141 Hypotheses

Este estudio demuestra, mediante la prueba autónoma de 141 hipótesis, que los modelos fundamentales biológicos aprenden una estructura geométrica y topológica genuina y compartida que es biológicamente significativa, aunque dicha señal es más localizada de lo esperado y se concentra principalmente en tejidos inmunitarios.

Ihor KendiukhovMon, 09 Ma🤖 cs.LG

Machine Learning for analysis of Multiple Sclerosis cross-tissue bulk and single-cell transcriptomics data

Este estudio presenta un pipeline de aprendizaje automático explicable que integra datos transcriptómicos de sangre y líquido cefalorraquídeo para identificar genes clave y vías biológicas, como la activación inmune y la regulación del virus de Epstein-Barr, que mejoran la comprensión de la patogénesis de la esclerosis múltiple y proponen nuevos biomarcadores.

Francesco Massafra, Samuele Punzo, Silvia Giulia Galfré, Alessandro Maglione, Simone Pernice, Stefano Forti, Simona Rolla, Marco Beccuti, Marinella Clerico, Corrado Priami, Alina SîrbuMon, 09 Ma🤖 cs.LG

Extending Sequence Length is Not All You Need: Effective Integration of Multimodal Signals for Gene Expression Prediction

El artículo propone Prism, un marco que integra señales epigenómicas multimodales mediante ajuste de retroceso para mitigar efectos de confusión, logrando un rendimiento superior en la predicción de expresión génica utilizando secuencias cortas en lugar de depender de longitudes de secuencia extendidas.

Zhao Yang, Yi Duan, Jiwei Zhu, Ying Ba, Chuan Cao, Bing SuFri, 13 Ma🧬 q-bio

Cross-Species Antimicrobial Resistance Prediction from Genomic Foundation Models

Este artículo demuestra que la predicción de resistencia antimicrobiana entre especies mejora significativamente al utilizar representaciones de modelos fundacionales genómicos estables, extraídas cerca de un umbral de estabilidad en capas profundas, y al aplicar la técnica MiniRocket para preservar patrones de activación local en lugar de depender de agrupaciones globales que fallan en generalizaciones fuera de distribución.

Huilin TaiFri, 13 Ma🧬 q-bio

A Standardized Framework For Evaluating Gene Expression Generative Models

Este artículo presenta GGE, un marco de código abierto en Python que establece un protocolo de evaluación estandarizado y reproducible para modelos generativos de expresión génica de células individuales, abordando la falta de consistencia en las métricas actuales mediante un conjunto integral de medidas distribucionales y análisis biológicamente fundamentados.

Andrea Rubbi, Andrea Giuseppe Di Francesco, Mohammad Lotfollahi, Pietro LiòFri, 13 Ma🧬 q-bio

ELISA: An Interpretable Hybrid Generative AI Agent for Expression-Grounded Discovery in Single-Cell Genomics

ElISA es un agente de IA híbrido e interpretable que unifica los embeddings de scGPT con la recuperación semántica de BioBERT y la interpretación mediada por LLM para permitir el descubrimiento interactivo de hipótesis biológicas a partir de datos de scRNA-seq sin acceder a la matriz de conteo original, superando significativamente a sistemas anteriores como CellWhisperer en la recuperación de tipos celulares y la alineación con hallazgos biológicos publicados.

Omar CoserFri, 13 Ma🧬 q-bio