Quantifying Memorization and Privacy Risks in Genomic Language Models

Este artículo presenta un marco de evaluación de privacidad multi-vectorial diseñado para cuantificar y auditar los riesgos de memorización en modelos de lenguaje genómico, demostrando que estos sistemas pueden memorizar secuencias sensibles y que se requiere una auditoría combinada para evaluar dicha vulnerabilidad de manera integral.

Alexander Nemecek, Wenbiao Li, Xiaoqian Jiang, Jaideep Vaidya, Erman AydayWed, 11 Ma🤖 cs.LG

Controllable Sequence Editing for Biological and Clinical Trajectories

El modelo CLEF introduce un método de edición de secuencias que permite modificar de forma controlada y específica el momento y las variables afectadas en trayectorias biológicas y clínicas, superando significativamente a los métodos existentes en precisión y capacidad de generación de contrafactuales.

Michelle M. Li, Kevin Li, Yasha Ektefaie, Ying Jin, Yepeng Huang, Shvat Messica, Tianxi Cai, Marinka ZitnikTue, 10 Ma🤖 cs.LG

Controlling the joint local false discovery rate is more powerful than meta-analysis methods in joint analysis of summary statistics from multiple genome-wide association studies

Los autores proponen un nuevo método de análisis conjunto basado en el control de la tasa local de falsos descubrimientos conjunta (Jlfdr) que demuestra ser más potente y efectivo que los métodos tradicionales de metaanálisis para identificar variantes genéticas asociadas en estudios de asociación del genoma completo (GWAS), especialmente al analizar conjuntos de datos heterogéneos.

Wei Jiang, Weichuan YuThu, 12 Ma📊 stat

pHapCompass: Probabilistic Assembly and Uncertainty Quantification of Polyploid Haplotype Phase

El artículo presenta pHapCompass, un algoritmo probabilístico que resuelve el ensamblaje de haplotipos en genomas poliploides modelando la ambigüedad en la asignación de lecturas para cuantificar la incertidumbre de la fase, ofreciendo además un flujo de trabajo de simulación realista y métricas de evaluación generalizadas.

Marjan Hosseini (School of Computing, University of Connecticut), Ella Veiner (School of Computing, University of Connecticut), Thomas Bergendahl (School of Computing, University of Connecticut), Tala Yasenpoor (School of Computing, University of Connecticut), Zane Smith (Department of Entomology and Plant Pathology, University of Tennessee), Margaret Staton (Department of Entomology and Plant Pathology, University of Tennessee), Derek Aguiar (School of Computing, University of Connecticut, Institute for Systems Genomics, University of Connecticut)Thu, 12 Ma🧬 q-bio

Discovery of a Hematopoietic Manifold in scGPT Yields a Method for Extracting Performant Algorithms from Biological Foundation Model Internals

Este artículo presenta el descubrimiento y la extracción de un algoritmo compacto y de alto rendimiento para el análisis hematopoyético a partir del modelo fundacional scGPT mediante interpretabilidad mecánica, logrando resultados superiores a métodos existentes con una eficiencia computacional y de parámetros significativamente mayor.

Ihor KendiukhovThu, 12 Ma🧬 q-bio

SNPgen: Phenotype-Supervised Genotype Representation and Synthetic Data Generation via Latent Diffusion

El artículo presenta SNPgen, un marco de difusión latente condicional que genera genotipos sintéticos supervisados por fenotipos, logrando un rendimiento predictivo comparable al de datos reales para enfermedades complejas mientras garantiza la privacidad y preserva las estructuras genéticas clave.

Andrea Lampis, Michela Carlotta Massi, Nicola Pirastu, Francesca Ieva, Matteo Matteucci, Emanuele Di AngelantonioThu, 12 Ma🧬 q-bio

TrinityDNA: A Bio-Inspired Foundational Model for Efficient Long-Sequence DNA Modeling

El artículo presenta TrinityDNA, un modelo fundamental bioinspirado que integra componentes informados biológicamente y estrategias de entrenamiento evolutivo para modelar secuencias de ADN largas con mayor precisión y eficiencia, superando las limitaciones de los enfoques tradicionales en aplicaciones genómicas.

Qirong Yang, Yucheng Guo, Zicheng Liu, Yujie Yang, Qijin Yin, Siyuan Li, Shaomin Ji, Linlin Chao, Xiaoming Zhang, Stan Z. LiMon, 09 Ma💻 cs

Machine Learning for analysis of Multiple Sclerosis cross-tissue bulk and single-cell transcriptomics data

Este estudio presenta un pipeline de aprendizaje automático explicable que integra datos transcriptómicos de sangre y líquido cefalorraquídeo para identificar genes clave y vías biológicas, como la activación inmune y la regulación del virus de Epstein-Barr, que mejoran la comprensión de la patogénesis de la esclerosis múltiple y proponen nuevos biomarcadores.

Francesco Massafra, Samuele Punzo, Silvia Giulia Galfré, Alessandro Maglione, Simone Pernice, Stefano Forti, Simona Rolla, Marco Beccuti, Marinella Clerico, Corrado Priami, Alina SîrbuMon, 09 Ma🤖 cs.LG

Extending Sequence Length is Not All You Need: Effective Integration of Multimodal Signals for Gene Expression Prediction

El artículo propone Prism, un marco que integra señales epigenómicas multimodales mediante ajuste de retroceso para mitigar efectos de confusión, logrando un rendimiento superior en la predicción de expresión génica utilizando secuencias cortas en lugar de depender de longitudes de secuencia extendidas.

Zhao Yang, Yi Duan, Jiwei Zhu, Ying Ba, Chuan Cao, Bing SuFri, 13 Ma🧬 q-bio

Cross-Species Antimicrobial Resistance Prediction from Genomic Foundation Models

Este artículo demuestra que la predicción de resistencia antimicrobiana entre especies mejora significativamente al utilizar representaciones de modelos fundacionales genómicos estables, extraídas cerca de un umbral de estabilidad en capas profundas, y al aplicar la técnica MiniRocket para preservar patrones de activación local en lugar de depender de agrupaciones globales que fallan en generalizaciones fuera de distribución.

Huilin TaiFri, 13 Ma🧬 q-bio

A Standardized Framework For Evaluating Gene Expression Generative Models

Este artículo presenta GGE, un marco de código abierto en Python que establece un protocolo de evaluación estandarizado y reproducible para modelos generativos de expresión génica de células individuales, abordando la falta de consistencia en las métricas actuales mediante un conjunto integral de medidas distribucionales y análisis biológicamente fundamentados.

Andrea Rubbi, Andrea Giuseppe Di Francesco, Mohammad Lotfollahi, Pietro LiòFri, 13 Ma🧬 q-bio

ELISA: An Interpretable Hybrid Generative AI Agent for Expression-Grounded Discovery in Single-Cell Genomics

ElISA es un agente de IA híbrido e interpretable que unifica los embeddings de scGPT con la recuperación semántica de BioBERT y la interpretación mediada por LLM para permitir el descubrimiento interactivo de hipótesis biológicas a partir de datos de scRNA-seq sin acceder a la matriz de conteo original, superando significativamente a sistemas anteriores como CellWhisperer en la recuperación de tipos celulares y la alineación con hallazgos biológicos publicados.

Omar CoserFri, 13 Ma🧬 q-bio