q-bio.GN artigos | Gist.Science

Quantifying Memorization and Privacy Risks in Genomic Language Models

Este artigo apresenta um quadro de avaliação de privacidade abrangente que integra múltiplos métodos para quantificar e auditar os riscos de memorização em Modelos de Linguagem Genômica, demonstrando que a exposição de dados sensíveis varia conforme a arquitetura e o regime de treinamento, exigindo assim uma abordagem de auditoria multifacetada.

Alexander Nemecek, Wenbiao Li, Xiaoqian Jiang, Jaideep Vaidya, Erman AydayWed, 11 Ma🤖 cs.LG

Controllable Sequence Editing for Biological and Clinical Trajectories

O artigo apresenta o CLEF, um modelo que permite a edição controlada e direcionada de sequências longitudinais biológicas e clínicas, superando métodos existentes ao especificar com precisão o momento e o escopo das intervenções para gerar trajetórias contrafactuais realistas.

Michelle M. Li, Kevin Li, Yasha Ektefaie, Ying Jin, Yepeng Huang, Shvat Messica, Tianxi Cai, Marinka ZitnikTue, 10 Ma🤖 cs.LG

How Private Are DNA Embeddings? Inverting Foundation Model Representations of Genomic Sequences

Este estudo demonstra que os embeddings de modelos fundamentais de DNA, como Evo 2 e NTv2, são vulneráveis a ataques de inversão que permitem a reconstrução quase perfeita de sequências genéticas sensíveis, especialmente quando fornecidos por token, alertando para a necessidade urgente de designs focados em privacidade antes da adoção generalizada em serviços de embeddings.

Sofiane Ouaari, Jules Kreuer, Nico PfeiferTue, 10 Ma🤖 cs.LG

Adversarial Domain Adaptation Enables Knowledge Transfer Across Heterogeneous RNA-Seq Datasets

Este estudo propõe um framework de aprendizado profundo baseado em adaptação de domínio adversarial que permite a transferência eficaz de conhecimento entre conjuntos de dados de RNA-seq heterogêneos, melhorando significativamente a precisão na classificação de tipos de câncer e tecidos, especialmente em cenários com dados limitados.

Kevin Dradjat, Massinissa Hamidi, Blaise HanczarTue, 10 Ma🤖 cs.LG

Estimating Reproducibility in Genome-Wide Association Studies

Este artigo propõe e valida dois métodos probabilísticos, a Taxa de Reprodutibilidade (RR) e a Taxa de Falsa Irreprodutibilidade (FIR), para quantificar e prever o comportamento das associações positivas em estudos de replicação de GWAS, auxiliando tanto no desenho desses estudos quanto na identificação de verdadeiros positivos que podem ter sido erroneamente descartados.

Wei Jiang, Jing-Hao Xue, Weichuan YuThu, 12 Ma📊 stat

Controlling the joint local false discovery rate is more powerful than meta-analysis methods in joint analysis of summary statistics from multiple genome-wide association studies

O artigo propõe um novo método de análise conjunta baseado em estatísticas resumidas que controla a taxa local conjunta de falsas descobertas (Jlfdr), demonstrando ser mais poderoso e eficaz do que os métodos tradicionais de meta-análise para identificar variantes genéticas associadas, especialmente em conjuntos de dados heterogêneos.

Wei Jiang, Weichuan YuThu, 12 Ma📊 stat

pHapCompass: Probabilistic Assembly and Uncertainty Quantification of Polyploid Haplotype Phase

O artigo apresenta o pHapCompass, um algoritmo probabilístico inovador para a montagem de haplótipos em genomas poliploides que modela explicitamente a ambiguidade na atribuição de leituras para quantificar a incerteza da fase, ao mesmo tempo em que oferece um fluxo de trabalho de simulação realista e métricas de avaliação generalizadas para superar as limitações das abordagens anteriores.

Marjan Hosseini (School of Computing, University of Connecticut), Ella Veiner (School of Computing, University of Connecticut), Thomas Bergendahl (School of Computing, University of Connecticut), Tala Yasenpoor (School of Computing, University of Connecticut), Zane Smith (Department of Entomology and Plant Pathology, University of Tennessee), Margaret Staton (Department of Entomology and Plant Pathology, University of Tennessee), Derek Aguiar (School of Computing, University of Connecticut, Institute for Systems Genomics, University of Connecticut)Thu, 12 Ma🧬 q-bio

Omics Data Discovery Agents

Este artigo apresenta um framework baseado em agentes de IA que automatiza a descoberta, extração e reanálise de dados ômicos da literatura biomédica, transformando informações não estruturadas em recursos executáveis e reutilizáveis em escala.

Alexandre Hutton, Jesse G. MeyerThu, 12 Ma🧬 q-bio

Discovery of a Hematopoietic Manifold in scGPT Yields a Method for Extracting Performant Algorithms from Biological Foundation Model Internals

Os autores descobrem e extraem do modelo de base scGPT um algoritmo compacto e performático para a hematopoiese, utilizando um método de três etapas baseado em interpretabilidade mecânica que supera abordagens padrão em precisão e eficiência computacional.

Ihor KendiukhovThu, 12 Ma🧬 q-bio

SNPgen: Phenotype-Supervised Genotype Representation and Synthetic Data Generation via Latent Diffusion

O artigo apresenta o SNPgen, um framework de difusão latente condicional que gera dados genotípicos sintéticos supervisionados por fenótipos, demonstrando que modelos treinados nesses dados preservam a estrutura genética e alcançam desempenho preditivo comparável ao de dados reais, oferecendo assim uma alternativa viável e privada para pesquisas genômicas.

Andrea Lampis, Michela Carlotta Massi, Nicola Pirastu, Francesca Ieva, Matteo Matteucci, Emanuele Di AngelantonioThu, 12 Ma🧬 q-bio

Continuous Diffusion Transformers for Designing Synthetic Regulatory Elements

Este artigo apresenta um modelo eficiente de Difusão Transformer (DiT) que gera sequências de DNA regulatório específicas de tipos celulares com maior eficiência de treinamento e menor memorização que abordagens anteriores, alcançando uma melhoria de 38 vezes na atividade regulatória predita após o ajuste fino com DDPO.

Jonathan Liu, Kia GhodsThu, 12 Ma🧬 q-bio

TrinityDNA: A Bio-Inspired Foundational Model for Efficient Long-Sequence DNA Modeling

O artigo apresenta o TrinityDNA, um modelo fundamental bioinspirado que integra componentes como a Fusão de Sulco e o Complemento Reverso com Portão, além de uma estratégia de treinamento evolutivo, para superar os desafios na modelagem de sequências genômicas longas e melhorar aplicações como a previsão de função gênica e a anotação de CDS.

Qirong Yang, Yucheng Guo, Zicheng Liu, Yujie Yang, Qijin Yin, Siyuan Li, Shaomin Ji, Linlin Chao, Xiaoming Zhang, Stan Z. LiMon, 09 Ma💻 cs

LA-MARRVEL: A Knowledge-Grounded, Language-Aware LLM Framework for Clinically Robust Rare Disease Gene Prioritization

O artigo apresenta o LA-MARRVEL, um framework baseado em LLMs que utiliza prompts estruturados e ricos em fenótipos para melhorar significativamente a priorização de genes em doenças raras, oferecendo explicações auditáveis e alinhadas às diretrizes ACMG sem alterar os fluxos de trabalho diagnósticos estabelecidos.

Jaeyeon Lee, Lin Yao, Hyun-Hwan Jeong, Zhandong LiuMon, 09 Ma🤖 cs.AI

Validating Interpretability in siRNA Efficacy Prediction: A Perturbation-Based, Dataset-Aware Protocol

Este artigo propõe um protocolo de validação baseado em perturbação para mapas de saliência em previsões de eficácia de siRNA, demonstrando que a validação prévia é essencial para evitar falhas de generalização e introduzindo um regularizador biológico (BioPrior) que melhora a fidelidade das explicações com um custo preditivo moderado.

Zahra Khodagholi, Niloofar YousefiMon, 09 Ma🤖 cs.LG

What Topological and Geometric Structure Do Biological Foundation Models Learn? Evidence from 141 Hypotheses

Este estudo utiliza um ciclo autônomo de geração e teste de hipóteses para demonstrar que modelos de base biológica aprendem estruturas geométricas e topológicas genuínas e compartilhadas, embora essas descobertas sejam mais robustas em tecidos imunes do que em outros contextos.

Ihor KendiukhovMon, 09 Ma🤖 cs.LG

Machine Learning for analysis of Multiple Sclerosis cross-tissue bulk and single-cell transcriptomics data

Este estudo desenvolveu um pipeline de aprendizado de máquina explicável para integrar dados transcriptômicos de múltiplos tecidos no Esclerose Múltipla, identificando com alta precisão biomarcadores e vias patogênicas, como checkpoints imunes não canônicos e mecanismos relacionados ao vírus Epstein-Barr, que complementam as análises tradicionais de expressão diferencial.

Francesco Massafra, Samuele Punzo, Silvia Giulia Galfré, Alessandro Maglione, Simone Pernice, Stefano Forti, Simona Rolla, Marco Beccuti, Marinella Clerico, Corrado Priami, Alina SîrbuMon, 09 Ma🤖 cs.LG

Extending Sequence Length is Not All You Need: Effective Integration of Multimodal Signals for Gene Expression Prediction

O artigo propõe o framework Prism, que integra sinais epigenômicos multimodais próximos aos genes-alvo utilizando ajuste de porta traseira para mitigar efeitos de confusão, demonstrando que essa abordagem supera a simples extensão do comprimento da sequência e alcança desempenho state-of-the-art na previsão de expressão gênica.

Zhao Yang, Yi Duan, Jiwei Zhu, Ying Ba, Chuan Cao, Bing SuFri, 13 Ma🧬 q-bio

Cross-Species Antimicrobial Resistance Prediction from Genomic Foundation Models

Este artigo demonstra que a previsão de resistência antimicrobiana entre espécies, um problema de generalização fora de distribuição, é significativamente aprimorada ao utilizar embeddings de modelos fundacionais genômicos extraídos em camadas estáveis e agregados via MiniRocket para preservar padrões de ativação local, superando as limitações de modelos baseados em k-mers que falham em cenários cruzados.

Huilin TaiFri, 13 Ma🧬 q-bio

A Standardized Framework For Evaluating Gene Expression Generative Models

O artigo apresenta o GGE, um framework de código aberto em Python que estabelece um protocolo de avaliação padronizado e reprodutível para modelos generativos de expressão gênica em células únicas, abordando a inconsistência atual nas métricas e permitindo comparações justas entre diferentes abordagens.

Andrea Rubbi, Andrea Giuseppe Di Francesco, Mohammad Lotfollahi, Pietro LiòFri, 13 Ma🧬 q-bio

ELISA: An Interpretable Hybrid Generative AI Agent for Expression-Grounded Discovery in Single-Cell Genomics

O artigo apresenta o ELISA, um agente de IA híbrido e interpretável que unifica embeddings de expressão gênica, recuperação semântica e raciocínio de modelos de linguagem para permitir a descoberta interativa de hipóteses biológicas em dados de sequenciamento de RNA de célula única, superando métodos existentes na recuperação de tipos celulares e na geração de insights mecanicistas.

Omar CoserFri, 13 Ma🧬 q-bio