Controllable Sequence Editing for Biological and Clinical Trajectories

Het paper introduceert CLEF, een model dat longitudinale biologische en klinische trajecten nauwkeurig kan bewerken door interventies op specifieke tijdstippen en variabelen te richten, waardoor het aanzienlijk beter presteert dan bestaande methoden bij het genereren van realistische tegenwereldscenario's.

Michelle M. Li, Kevin Li, Yasha Ektefaie, Ying Jin, Yepeng Huang, Shvat Messica, Tianxi Cai, Marinka ZitnikTue, 10 Ma🤖 cs.LG

Controlling the joint local false discovery rate is more powerful than meta-analysis methods in joint analysis of summary statistics from multiple genome-wide association studies

Dit artikel introduceert een nieuwe methode voor gezamenlijke analyse van samenvattingsstatistieken uit meerdere GWAS-studies die gebaseerd is op het beheersen van de gezamenlijke lokale false discovery rate, en toont aan dat deze methode krachtiger is dan bestaande meta-analyse-methoden, vooral bij heterogene datasets.

Wei Jiang, Weichuan YuThu, 12 Ma📊 stat

pHapCompass: Probabilistic Assembly and Uncertainty Quantification of Polyploid Haplotype Phase

Dit paper introduceert pHapCompass, een probabilistisch algoritme voor het assemblen van haplotypen in diploïde en polyploïde genomen dat ambiguïteit in read-toewijzing expliciet modelleert om een verdeling over haplotype-faseringen te berekenen en onzekerheid te kwantificeren, terwijl het ook een nieuwe simulatie-workflow en geëxtendeerde evaluatiemetrics biedt voor realistischere polyploïde studies.

Marjan Hosseini (School of Computing, University of Connecticut), Ella Veiner (School of Computing, University of Connecticut), Thomas Bergendahl (School of Computing, University of Connecticut), Tala Yasenpoor (School of Computing, University of Connecticut), Zane Smith (Department of Entomology and Plant Pathology, University of Tennessee), Margaret Staton (Department of Entomology and Plant Pathology, University of Tennessee), Derek Aguiar (School of Computing, University of Connecticut, Institute for Systems Genomics, University of Connecticut)Thu, 12 Ma🧬 q-bio

Discovery of a Hematopoietic Manifold in scGPT Yields a Method for Extracting Performant Algorithms from Biological Foundation Model Internals

Deze studie presenteert een doorbraak waarbij een compact en performant hematopoëtisch algoritme wordt geëxtraheerd uit de interne mechanica van het foundation-model scGPT, wat resulteert in een standalone methode die zonder hertraining superieure prestaties levert ten opzichte van bestaande tools en de interpretatie van biologische foundation-modellen mogelijk maakt.

Ihor KendiukhovThu, 12 Ma🧬 q-bio

SNPgen: Phenotype-Supervised Genotype Representation and Synthetic Data Generation via Latent Diffusion

Deze paper introduceert SNPgen, een tweestaps latent diffusion-model dat privacy-bevarende, fenotype-gestuurde synthetische genotype-data genereert die prestatie-technisch vergelijkbaar zijn met real-data voor polygenische risicoscores, zonder individuele privacy te schenden.

Andrea Lampis, Michela Carlotta Massi, Nicola Pirastu, Francesca Ieva, Matteo Matteucci, Emanuele Di AngelantonioThu, 12 Ma🧬 q-bio

TrinityDNA: A Bio-Inspired Foundational Model for Efficient Long-Sequence DNA Modeling

In dit artikel wordt TrinityDNA voorgesteld, een bio-geïnspireerd fundamenteel model dat geavanceerde architectuurcomponenten en een evolutionaire trainingsstrategie combineert om de uitdagingen van het modelleren van lange DNA-sequenties aan te pakken en de nauwkeurigheid van genoomanalyses aanzienlijk te verbeteren.

Qirong Yang, Yucheng Guo, Zicheng Liu, Yujie Yang, Qijin Yin, Siyuan Li, Shaomin Ji, Linlin Chao, Xiaoming Zhang, Stan Z. LiMon, 09 Ma💻 cs

Validating Interpretability in siRNA Efficacy Prediction: A Perturbation-Based, Dataset-Aware Protocol

Dit artikel introduceert een protocollaire 'pre-synthesis gate' om de betrouwbaarheid van salientiekaarten voor siRNA-voorspelling te valideren, waarbij het aantoont dat dergelijke validatie essentieel is om onopgemerkte faalmodi te detecteren en dat een biologisch geïnformeerde regularisator (BioPrior) de trouw van deze attributiemethoden verbetert.

Zahra Khodagholi, Niloofar YousefiMon, 09 Ma🤖 cs.LG

Machine Learning for analysis of Multiple Sclerosis cross-tissue bulk and single-cell transcriptomics data

Deze studie presenteert een end-to-end machine learning-pijplijn die bulk- en single-cell transcriptomics-data van MS-patiënten integreert om via XGBoost en SHAP-analyse nieuwe biomarkers en mechanistische inzichten in de pathogenese van Multiple Sclerosis te onthullen.

Francesco Massafra, Samuele Punzo, Silvia Giulia Galfré, Alessandro Maglione, Simone Pernice, Stefano Forti, Simona Rolla, Marco Beccuti, Marinella Clerico, Corrado Priami, Alina SîrbuMon, 09 Ma🤖 cs.LG

Extending Sequence Length is Not All You Need: Effective Integration of Multimodal Signals for Gene Expression Prediction

Het artikel introduceert Prism, een raamwerk dat door middel van backdoor-adjustment multimodale epigenomische signalen effectief integreert om confounding effecten te elimineren, waardoor state-of-the-art prestaties voor genexpressievoorspelling worden bereikt met korte DNA-sequenties in plaats van lange sequenties.

Zhao Yang, Yi Duan, Jiwei Zhu, Ying Ba, Chuan Cao, Bing SuFri, 13 Ma🧬 q-bio