Quantifying Memorization and Privacy Risks in Genomic Language Models

Este artigo apresenta um quadro de avaliação de privacidade abrangente que integra múltiplos métodos para quantificar e auditar os riscos de memorização em Modelos de Linguagem Genômica, demonstrando que a exposição de dados sensíveis varia conforme a arquitetura e o regime de treinamento, exigindo assim uma abordagem de auditoria multifacetada.

Alexander Nemecek, Wenbiao Li, Xiaoqian Jiang, Jaideep Vaidya, Erman AydayWed, 11 Ma🤖 cs.LG

How Private Are DNA Embeddings? Inverting Foundation Model Representations of Genomic Sequences

Este estudo demonstra que os embeddings de modelos fundamentais de DNA, como Evo 2 e NTv2, são vulneráveis a ataques de inversão que permitem a reconstrução quase perfeita de sequências genéticas sensíveis, especialmente quando fornecidos por token, alertando para a necessidade urgente de designs focados em privacidade antes da adoção generalizada em serviços de embeddings.

Sofiane Ouaari, Jules Kreuer, Nico PfeiferTue, 10 Ma🤖 cs.LG

Adversarial Domain Adaptation Enables Knowledge Transfer Across Heterogeneous RNA-Seq Datasets

Este estudo propõe um framework de aprendizado profundo baseado em adaptação de domínio adversarial que permite a transferência eficaz de conhecimento entre conjuntos de dados de RNA-seq heterogêneos, melhorando significativamente a precisão na classificação de tipos de câncer e tecidos, especialmente em cenários com dados limitados.

Kevin Dradjat, Massinissa Hamidi, Blaise HanczarTue, 10 Ma🤖 cs.LG

Controlling the joint local false discovery rate is more powerful than meta-analysis methods in joint analysis of summary statistics from multiple genome-wide association studies

O artigo propõe um novo método de análise conjunta baseado em estatísticas resumidas que controla a taxa local conjunta de falsas descobertas (Jlfdr), demonstrando ser mais poderoso e eficaz do que os métodos tradicionais de meta-análise para identificar variantes genéticas associadas, especialmente em conjuntos de dados heterogêneos.

Wei Jiang, Weichuan YuThu, 12 Ma📊 stat

pHapCompass: Probabilistic Assembly and Uncertainty Quantification of Polyploid Haplotype Phase

O artigo apresenta o pHapCompass, um algoritmo probabilístico inovador para a montagem de haplótipos em genomas poliploides que modela explicitamente a ambiguidade na atribuição de leituras para quantificar a incerteza da fase, ao mesmo tempo em que oferece um fluxo de trabalho de simulação realista e métricas de avaliação generalizadas para superar as limitações das abordagens anteriores.

Marjan Hosseini (School of Computing, University of Connecticut), Ella Veiner (School of Computing, University of Connecticut), Thomas Bergendahl (School of Computing, University of Connecticut), Tala Yasenpoor (School of Computing, University of Connecticut), Zane Smith (Department of Entomology and Plant Pathology, University of Tennessee), Margaret Staton (Department of Entomology and Plant Pathology, University of Tennessee), Derek Aguiar (School of Computing, University of Connecticut, Institute for Systems Genomics, University of Connecticut)Thu, 12 Ma🧬 q-bio

SNPgen: Phenotype-Supervised Genotype Representation and Synthetic Data Generation via Latent Diffusion

O artigo apresenta o SNPgen, um framework de difusão latente condicional que gera dados genotípicos sintéticos supervisionados por fenótipos, demonstrando que modelos treinados nesses dados preservam a estrutura genética e alcançam desempenho preditivo comparável ao de dados reais, oferecendo assim uma alternativa viável e privada para pesquisas genômicas.

Andrea Lampis, Michela Carlotta Massi, Nicola Pirastu, Francesca Ieva, Matteo Matteucci, Emanuele Di AngelantonioThu, 12 Ma🧬 q-bio

TrinityDNA: A Bio-Inspired Foundational Model for Efficient Long-Sequence DNA Modeling

O artigo apresenta o TrinityDNA, um modelo fundamental bioinspirado que integra componentes como a Fusão de Sulco e o Complemento Reverso com Portão, além de uma estratégia de treinamento evolutivo, para superar os desafios na modelagem de sequências genômicas longas e melhorar aplicações como a previsão de função gênica e a anotação de CDS.

Qirong Yang, Yucheng Guo, Zicheng Liu, Yujie Yang, Qijin Yin, Siyuan Li, Shaomin Ji, Linlin Chao, Xiaoming Zhang, Stan Z. LiMon, 09 Ma💻 cs

LA-MARRVEL: A Knowledge-Grounded, Language-Aware LLM Framework for Clinically Robust Rare Disease Gene Prioritization

O artigo apresenta o LA-MARRVEL, um framework baseado em LLMs que utiliza prompts estruturados e ricos em fenótipos para melhorar significativamente a priorização de genes em doenças raras, oferecendo explicações auditáveis e alinhadas às diretrizes ACMG sem alterar os fluxos de trabalho diagnósticos estabelecidos.

Jaeyeon Lee, Lin Yao, Hyun-Hwan Jeong, Zhandong LiuMon, 09 Ma🤖 cs.AI

Validating Interpretability in siRNA Efficacy Prediction: A Perturbation-Based, Dataset-Aware Protocol

Este artigo propõe um protocolo de validação baseado em perturbação para mapas de saliência em previsões de eficácia de siRNA, demonstrando que a validação prévia é essencial para evitar falhas de generalização e introduzindo um regularizador biológico (BioPrior) que melhora a fidelidade das explicações com um custo preditivo moderado.

Zahra Khodagholi, Niloofar YousefiMon, 09 Ma🤖 cs.LG

Machine Learning for analysis of Multiple Sclerosis cross-tissue bulk and single-cell transcriptomics data

Este estudo desenvolveu um pipeline de aprendizado de máquina explicável para integrar dados transcriptômicos de múltiplos tecidos no Esclerose Múltipla, identificando com alta precisão biomarcadores e vias patogênicas, como checkpoints imunes não canônicos e mecanismos relacionados ao vírus Epstein-Barr, que complementam as análises tradicionais de expressão diferencial.

Francesco Massafra, Samuele Punzo, Silvia Giulia Galfré, Alessandro Maglione, Simone Pernice, Stefano Forti, Simona Rolla, Marco Beccuti, Marinella Clerico, Corrado Priami, Alina SîrbuMon, 09 Ma🤖 cs.LG

Extending Sequence Length is Not All You Need: Effective Integration of Multimodal Signals for Gene Expression Prediction

O artigo propõe o framework Prism, que integra sinais epigenômicos multimodais próximos aos genes-alvo utilizando ajuste de porta traseira para mitigar efeitos de confusão, demonstrando que essa abordagem supera a simples extensão do comprimento da sequência e alcança desempenho state-of-the-art na previsão de expressão gênica.

Zhao Yang, Yi Duan, Jiwei Zhu, Ying Ba, Chuan Cao, Bing SuFri, 13 Ma🧬 q-bio

Cross-Species Antimicrobial Resistance Prediction from Genomic Foundation Models

Este artigo demonstra que a previsão de resistência antimicrobiana entre espécies, um problema de generalização fora de distribuição, é significativamente aprimorada ao utilizar embeddings de modelos fundacionais genômicos extraídos em camadas estáveis e agregados via MiniRocket para preservar padrões de ativação local, superando as limitações de modelos baseados em k-mers que falham em cenários cruzados.

Huilin TaiFri, 13 Ma🧬 q-bio

ELISA: An Interpretable Hybrid Generative AI Agent for Expression-Grounded Discovery in Single-Cell Genomics

O artigo apresenta o ELISA, um agente de IA híbrido e interpretável que unifica embeddings de expressão gênica, recuperação semântica e raciocínio de modelos de linguagem para permitir a descoberta interativa de hipóteses biológicas em dados de sequenciamento de RNA de célula única, superando métodos existentes na recuperação de tipos celulares e na geração de insights mecanicistas.

Omar CoserFri, 13 Ma🧬 q-bio