Controllable Sequence Editing for Biological and Clinical Trajectories

Il paper presenta CLEF, un modello di generazione condizionale che supera i limiti delle metodologie esistenti consentendo l'editing controllato e mirato di traiettorie sequenziali biologiche e cliniche, modificando specifiche variabili a partire da un momento temporale definito per generare scenari controfattuali realistici.

Michelle M. Li, Kevin Li, Yasha Ektefaie, Ying Jin, Yepeng Huang, Shvat Messica, Tianxi Cai, Marinka ZitnikTue, 10 Ma🤖 cs.LG

How Private Are DNA Embeddings? Inverting Foundation Model Representations of Genomic Sequences

Questo studio dimostra che le rappresentazioni vettoriali (embedding) dei modelli fondazionali del DNA, spesso condivise come servizio, sono vulnerabili ad attacchi di inversione che permettono agli avversari di ricostruire quasi perfettamente le sequenze genomiche sensibili originali, evidenziando la necessità urgente di progettare tali modelli con criteri di privacy.

Sofiane Ouaari, Jules Kreuer, Nico PfeiferTue, 10 Ma🤖 cs.LG

Adversarial Domain Adaptation Enables Knowledge Transfer Across Heterogeneous RNA-Seq Datasets

Questo studio propone un framework di adattamento di dominio basato sull'apprendimento profondo che, attraverso l'allineamento avversariale degli spazi latenti, consente un trasferimento efficace della conoscenza tra dataset eterogenei di RNA-seq, migliorando significativamente la precisione della classificazione dei tumori anche in scenari con dati limitati.

Kevin Dradjat, Massinissa Hamidi, Blaise HanczarTue, 10 Ma🤖 cs.LG

Controlling the joint local false discovery rate is more powerful than meta-analysis methods in joint analysis of summary statistics from multiple genome-wide association studies

Questo articolo propone un nuovo metodo di analisi congiunta basato sui dati di sintesi, denominato Jlfdr, che dimostra di essere più potente delle tradizionali tecniche di meta-analisi nel controllare il tasso di falsi scoperte locali congiunti, specialmente quando si analizzano dataset eterogenei provenienti da più studi di associazione genome-wide (GWAS).

Wei Jiang, Weichuan YuThu, 12 Ma📊 stat

pHapCompass: Probabilistic Assembly and Uncertainty Quantification of Polyploid Haplotype Phase

Il paper presenta pHapCompass, un algoritmo probabilistico per l'assemblaggio degli aplotipi in genomi poliploidi che quantifica l'incertezza di fase, introduce un nuovo flusso di lavoro per la simulazione realistica di genomi poliploidi e dimostra prestazioni competitive rispetto agli assemblatori esistenti.

Marjan Hosseini (School of Computing, University of Connecticut), Ella Veiner (School of Computing, University of Connecticut), Thomas Bergendahl (School of Computing, University of Connecticut), Tala Yasenpoor (School of Computing, University of Connecticut), Zane Smith (Department of Entomology and Plant Pathology, University of Tennessee), Margaret Staton (Department of Entomology and Plant Pathology, University of Tennessee), Derek Aguiar (School of Computing, University of Connecticut, Institute for Systems Genomics, University of Connecticut)Thu, 12 Ma🧬 q-bio

Discovery of a Hematopoietic Manifold in scGPT Yields a Method for Extracting Performant Algorithms from Biological Foundation Model Internals

Gli autori scoprono e estraggono dal modello fondazionale scGPT un algoritmo compatto e performante per l'analisi dell'ematopoiesi, validato su dataset esterni e superiore ai metodi esistenti, dimostrando come la meccanica interpretativa possa rivelare manufatti biologici utili direttamente dagli interni del modello senza necessità di riaddestramento.

Ihor KendiukhovThu, 12 Ma🧬 q-bio

Continuous Diffusion Transformers for Designing Synthetic Regulatory Elements

Il paper presenta un Diffusion Transformer (DiT) efficiente in termini di parametri, dotato di un codificatore CNN 2D e ottimizzato tramite DDPO con Enformer, in grado di generare sequenze di DNA regolatorio sintetico specifiche per il tipo cellulare con una convergenza più rapida, una minore memorizzazione dei dati e un'attività regolatoria predetta significativamente superiore rispetto ai modelli precedenti.

Jonathan Liu, Kia GhodsThu, 12 Ma🧬 q-bio

TrinityDNA: A Bio-Inspired Foundational Model for Efficient Long-Sequence DNA Modeling

Il paper presenta TrinityDNA, un modello fondazionale bio-ispirato che integra componenti strutturali e simmetriche specifiche del DNA con meccanismi di attenzione multi-scala e strategie di addestramento evolutive per modellare efficientemente sequenze genomiche lunghe e migliorare le applicazioni biologiche.

Qirong Yang, Yucheng Guo, Zicheng Liu, Yujie Yang, Qijin Yin, Siyuan Li, Shaomin Ji, Linlin Chao, Xiaoming Zhang, Stan Z. LiMon, 09 Ma💻 cs

LA-MARRVEL: A Knowledge-Grounded, Language-Aware LLM Framework for Clinically Robust Rare Disease Gene Prioritization

Il paper presenta LA-MARRVEL, un framework basato su LLM che integra conoscenze cliniche e consapevolezza linguistica per migliorare significativamente la priorità dei geni nelle malattie rare, offrendo spiegazioni tracciabili e allineate alle linee guida ACMG senza alterare i flussi di lavoro diagnostici esistenti.

Jaeyeon Lee, Lin Yao, Hyun-Hwan Jeong, Zhandong LiuMon, 09 Ma🤖 cs.AI

Validating Interpretability in siRNA Efficacy Prediction: A Perturbation-Based, Dataset-Aware Protocol

Questo articolo introduce un protocollo di validazione basato su perturbazioni per garantire la fedeltà delle mappe di salienza nei modelli di previsione dell'efficacia degli siRNA, rivelando fallimenti critici nel trasferimento tra dataset e proponendo un regolarizzatore biologico (BioPrior) per migliorare l'affidabilità della progettazione terapeutica prima della sintesi.

Zahra Khodagholi, Niloofar YousefiMon, 09 Ma🤖 cs.LG

Machine Learning for analysis of Multiple Sclerosis cross-tissue bulk and single-cell transcriptomics data

Questo studio presenta una pipeline di machine learning end-to-end che integra dati trascrittomici multi-tessuto e single-cell per l'analisi della Sclerosi Multipla, utilizzando modelli XGBoost e strumenti di AI spiegabile (SHAP) per identificare biomarcatori e pathway biologici chiave, come l'attivazione immunitaria e le vie legate al virus di Epstein-Barr, offrendo nuove ipotesi sui meccanismi patogenetici della malattia.

Francesco Massafra, Samuele Punzo, Silvia Giulia Galfré, Alessandro Maglione, Simone Pernice, Stefano Forti, Simona Rolla, Marco Beccuti, Marinella Clerico, Corrado Priami, Alina SîrbuMon, 09 Ma🤖 cs.LG

Extending Sequence Length is Not All You Need: Effective Integration of Multimodal Signals for Gene Expression Prediction

Il paper introduce Prism, un framework che supera i limiti della semplice estensione della lunghezza delle sequenze di DNA integrando in modo efficace segnali epigenomici multimodali tramite aggiustamento backdoor per eliminare effetti confondenti, ottenendo così prestazioni all'avanguardia nella previsione dell'espressione genica anche con sequenze corte.

Zhao Yang, Yi Duan, Jiwei Zhu, Ying Ba, Chuan Cao, Bing SuFri, 13 Ma🧬 q-bio

ELISA: An Interpretable Hybrid Generative AI Agent for Expression-Grounded Discovery in Single-Cell Genomics

Il paper introduce ELISA, un agente ibrido di intelligenza artificiale interpretabile che unisce embedding di espressione scRNA-seq e modelli linguistici per trasformare direttamente i dati trascrittomici in ipotesi biologiche meccanicistiche, superando le prestazioni degli strumenti esistenti nella ricerca di tipi cellulari e nella generazione di scoperte biologiche fondate.

Omar CoserFri, 13 Ma🧬 q-bio