q-bio.GN Arbeiten | Gist.Science

Quantifying Memorization and Privacy Risks in Genomic Language Models

Die Studie stellt ein umfassendes, mehrdimensionales Bewertungsframework vor, das die Risiken der Memorierung sensibler genomischer Daten in genomischen Sprachmodellen quantifiziert und zeigt, dass eine Kombination verschiedener Angriffsmethoden für eine zuverlässige Privatsphäre-Auditing unerlässlich ist.

Alexander Nemecek, Wenbiao Li, Xiaoqian Jiang, Jaideep Vaidya, Erman AydayWed, 11 Ma🤖 cs.LG

Controllable Sequence Editing for Biological and Clinical Trajectories

Das Paper stellt CLEF vor, ein Modell zur kontrollierten Sequenzbearbeitung, das in biologischen und klinischen Kontexten gezielte Eingriffe zu spezifischen Zeitpunkten und auf ausgewählte Variablen ermöglicht, wodurch es die Genauigkeit bei der Erzeugung realistischer kontrafaktischer Trajektorien im Vergleich zu bestehenden Methoden erheblich verbessert.

Michelle M. Li, Kevin Li, Yasha Ektefaie, Ying Jin, Yepeng Huang, Shvat Messica, Tianxi Cai, Marinka ZitnikTue, 10 Ma🤖 cs.LG

How Private Are DNA Embeddings? Inverting Foundation Model Representations of Genomic Sequences

Diese Studie zeigt, dass DNA-Embeddings aus Foundation-Modellen wie Evo 2 und NTv2 durch Inversionsangriffe leicht rekonstruiert werden können, was die Privatsphäre von Genomdaten in „Embeddings-as-a-Service"-Szenarien gefährdet und dringende Maßnahmen für einen privatsphärenbewussten Designansatz erfordert.

Sofiane Ouaari, Jules Kreuer, Nico PfeiferTue, 10 Ma🤖 cs.LG

Adversarial Domain Adaptation Enables Knowledge Transfer Across Heterogeneous RNA-Seq Datasets

Diese Studie stellt ein tiefes Lern-Framework zur adversariellen Domänenanpassung vor, das durch den Erwerb eines domäneninvarianten latenten Raums eine effektive Wissensübertragung von großen auf kleine RNA-Seq-Datensätze ermöglicht und so die Genauigkeit der Krebs- und Gewebetypklassifizierung insbesondere bei Datenknappheit verbessert.

Kevin Dradjat, Massinissa Hamidi, Blaise HanczarTue, 10 Ma🤖 cs.LG

Estimating Reproducibility in Genome-Wide Association Studies

Diese Studie schlägt zwei probabilistische Maße, die Reproduzierbarkeitsrate (RR) und die Falsch-Irreproduzierbarkeitsrate (FIR), vor, um das Verhalten von positiven Assoziationen in Replikationsstudien bei genomweiten Assoziationsstudien quantitativ zu bewerten und die Studiendesigns sowie die Nachverfolgung potenziell wahrer, aber irreproduzierbarer Befunde zu verbessern.

Wei Jiang, Jing-Hao Xue, Weichuan YuThu, 12 Ma📊 stat

Controlling the joint local false discovery rate is more powerful than meta-analysis methods in joint analysis of summary statistics from multiple genome-wide association studies

Die vorgestellte Studie demonstriert, dass eine neuartige Methode zur gemeinsamen Analyse von GWAS-Zusammenfassungsstatistiken auf Basis der Kontrolle der gemeinsamen lokalen Falsch-Entdeckungsrate (Jlfdr) sowohl in Simulationen als auch bei empirischen Daten eine höhere statistische Power aufweist als herkömmliche Meta-Analyse-Verfahren, insbesondere bei heterogenen Datensätzen.

Wei Jiang, Weichuan YuThu, 12 Ma📊 stat

pHapCompass: Probabilistic Assembly and Uncertainty Quantification of Polyploid Haplotype Phase

Die Studie stellt pHapCompass vor, einen probabilistischen Algorithmus zur Haplotyp-Assemblierung polyploider Genome, der die Unsicherheit bei der Zuordnung von Sequenzreads explizit modelliert, eine realistische Simulationsumgebung für Polyploide entwickelt und durch Benchmarks eine wettbewerbsfähige Leistung bei gleichzeitiger präziser Quantifizierung der Phasenunsicherheit nachweist.

Marjan Hosseini (School of Computing, University of Connecticut), Ella Veiner (School of Computing, University of Connecticut), Thomas Bergendahl (School of Computing, University of Connecticut), Tala Yasenpoor (School of Computing, University of Connecticut), Zane Smith (Department of Entomology and Plant Pathology, University of Tennessee), Margaret Staton (Department of Entomology and Plant Pathology, University of Tennessee), Derek Aguiar (School of Computing, University of Connecticut, Institute for Systems Genomics, University of Connecticut)Thu, 12 Ma🧬 q-bio

Omics Data Discovery Agents

Die Studie stellt ein Agenten-Framework vor, das mithilfe von Large Language Models und Tools unstrukturierte omische Daten aus der biomedizinischen Literatur extrahiert, verarbeitet und analysiert, um sie in eine skalierbare, ausführbare und abfragbare Ressource für die automatische Datenwiederverwendung zu verwandeln.

Alexandre Hutton, Jesse G. MeyerThu, 12 Ma🧬 q-bio

Discovery of a Hematopoietic Manifold in scGPT Yields a Method for Extracting Performant Algorithms from Biological Foundation Model Internals

Die Studie präsentiert eine dreistufige Methode zur Extraktion eines kompakten, hochleistungsfähigen hämatopoetischen Algorithmus aus dem Foundation-Modell scGPT mittels mechanischer Interpretierbarkeit, der ohne erneutes Training des Ziel-Datensatzes die Leistung bestehender Methoden übertrifft und biologisch interpretierbare Genprogramme offenbart.

Ihor KendiukhovThu, 12 Ma🧬 q-bio

SNPgen: Phenotype-Supervised Genotype Representation and Synthetic Data Generation via Latent Diffusion

Das Paper stellt SNPgen vor, ein zweistufiges, phänotypüberwachtes latentes Diffusionsmodell, das synthetische Genotypdaten erzeugt, die sowohl die genetische Struktur und Privatsphäre der Originaldaten bewahren als auch in Vorhersageaufgaben die Leistung realer Daten erreichen.

Andrea Lampis, Michela Carlotta Massi, Nicola Pirastu, Francesca Ieva, Matteo Matteucci, Emanuele Di AngelantonioThu, 12 Ma🧬 q-bio

Continuous Diffusion Transformers for Designing Synthetic Regulatory Elements

Die Studie stellt einen parameter-effizienten Diffusion-Transformer vor, der durch den Ersatz des U-Net-Rückgrats durch einen Transformer mit 2D-CNN-Encoder und eine DDPO-Feinabstimmung mit Enformer als Belohnungsmodell hochwirksame, zelltypspezifische regulatorische DNA-Sequenzen mit deutlich geringerem Rechenaufwand, besserer Konvergenz und weniger Memorierung erzeugt.

Jonathan Liu, Kia GhodsThu, 12 Ma🧬 q-bio

TrinityDNA: A Bio-Inspired Foundational Model for Efficient Long-Sequence DNA Modeling

Die Arbeit stellt TrinityDNA vor, ein bio-inspiriertes Grundmodell, das durch die Integration biologisch fundierter Komponenten wie Groove Fusion und Gated Reverse Complement sowie eines mehrskaligen Aufmerksamkeitsmechanismus effiziente und präzise Modellierungen langer DNA-Sequenzen ermöglicht und damit die Genomforschung voranbringt.

Qirong Yang, Yucheng Guo, Zicheng Liu, Yujie Yang, Qijin Yin, Siyuan Li, Shaomin Ji, Linlin Chao, Xiaoming Zhang, Stan Z. LiMon, 09 Ma💻 cs

LA-MARRVEL: A Knowledge-Grounded, Language-Aware LLM Framework for Clinically Robust Rare Disease Gene Prioritization

Das Paper stellt LA-MARRVEL vor, ein wissensbasiertes und sprachbewusstes LLM-Framework, das durch strukturierte, phänotypreiche Prompt-Konstruktion die Genauigkeit der Gen-Priorisierung bei seltenen Erkrankungen signifikant verbessert und dabei klinisch robuste, nachvollziehbare Begründungen liefert.

Jaeyeon Lee, Lin Yao, Hyun-Hwan Jeong, Zhandong LiuMon, 09 Ma🤖 cs.AI

Validating Interpretability in siRNA Efficacy Prediction: A Perturbation-Based, Dataset-Aware Protocol

Die Studie stellt ein neues Protokoll zur Validierung von Saliency-Maps in der siRNA-Wirksamkeitsvorhersage vor, das durch den Nachweis von Fehlern wie „inverser Saliency" und den Einsatz eines biologisch informierten Regularisierers (BioPrior) die Zuverlässigkeit erklärbarer Modelle für das therapeutische Design sicherstellt.

Zahra Khodagholi, Niloofar YousefiMon, 09 Ma🤖 cs.LG

What Topological and Geometric Structure Do Biological Foundation Models Learn? Evidence from 141 Hypotheses

Die Studie zeigt durch eine autonome Screening-Loop von 141 Hypothesen, dass biologische Foundation-Modelle wie scGPT und Geneformer eine genuine, über Modelle hinweg geteilte topologische und geometrische Struktur in ihren Repräsentationen lernen, die jedoch unter strengen Nullkontrollen vorwiegend auf Immungewebe beschränkt ist.

Ihor KendiukhovMon, 09 Ma🤖 cs.LG

Machine Learning for analysis of Multiple Sclerosis cross-tissue bulk and single-cell transcriptomics data

Diese Studie entwickelt einen erklärbaren Machine-Learning-Pipeline, der Bulk- und Single-Cell-Transkriptomdaten aus Blut und Liquor integriert, um Multiple-Sklerose-Patienten präzise zu klassifizieren und durch SHAP-Analysen sowie Netzwerkanalysen neue pathogene Mechanismen und Biomarker wie nicht-kanonische Immun-Checkpoints und EBV-bezogene Signalwege aufzudecken.

Francesco Massafra, Samuele Punzo, Silvia Giulia Galfré, Alessandro Maglione, Simone Pernice, Stefano Forti, Simona Rolla, Marco Beccuti, Marinella Clerico, Corrado Priami, Alina SîrbuMon, 09 Ma🤖 cs.LG

Extending Sequence Length is Not All You Need: Effective Integration of Multimodal Signals for Gene Expression Prediction

Die Studie zeigt, dass die Integration multimodaler epigenomischer Signale durch das neuartige Prism-Framework, das Verwirrungseffekte mittels Backdoor-Adjustment reduziert, für die Vorhersage der Genexpression effektiver ist als die bloße Verlängerung der DNA-Sequenzlänge.

Zhao Yang, Yi Duan, Jiwei Zhu, Ying Ba, Chuan Cao, Bing SuFri, 13 Ma🧬 q-bio

Cross-Species Antimicrobial Resistance Prediction from Genomic Foundation Models

Diese Studie zeigt, dass die Generalisierung von antimikrobiellen Resistenzvorhersagen über verschiedene Spezies hinweg durch die Nutzung stabiler Embeddings aus genomischen Foundation-Modellen in Kombination mit einer MiniRocket-basierten Aggregation lokaler Aktivierungsmuster signifikant verbessert werden kann, anstatt sich auf globale Pooling-Methoden zu verlassen.

Huilin TaiFri, 13 Ma🧬 q-bio

A Standardized Framework For Evaluating Gene Expression Generative Models

Die Arbeit stellt GGE vor, ein Open-Source-Python-Framework, das durch die Bereitstellung standardisierter, biologisch fundierter Metriken die inkonsistente Evaluierung generativer Modelle für Einzelzell-Genexpressionsdaten behebt und vergleichbare Benchmarking-Prozesse ermöglicht.

Andrea Rubbi, Andrea Giuseppe Di Francesco, Mohammad Lotfollahi, Pietro LiòFri, 13 Ma🧬 q-bio

ELISA: An Interpretable Hybrid Generative AI Agent for Expression-Grounded Discovery in Single-Cell Genomics

Die Arbeit stellt ELISA vor, einen interpretierbaren hybriden KI-Agenten, der scGPT-Embeddings mit BioBERT und LLMs verbindet, um mechanistische biologische Hypothesen direkt aus scRNA-seq-Daten abzuleiten und dabei die Leistungsfähigkeit bestehender Modelle wie CellWhisperer signifikant zu übertreffen.

Omar CoserFri, 13 Ma🧬 q-bio

Weiter →