La bioinformatica è l'incontro vitale tra biologia e informatica, un campo che trasforma i dati biologici complessi in conoscenza comprensibile. Qui esploriamo come algoritmi e software aiutino gli scienziati a decifrare il codice della vita, dall'analisi del DNA alla scoperta di nuovi farmaci, rendendo accessibili scoperte che altrimenti rimarrebbero confinate in database tecnici.

Su Gist.Science, monitoriamo ogni nuovo preprint inviato da bioRxiv in questa categoria. Per ogni articolo, offriamo una doppia prospettiva: una spiegazione semplice per chiunque sia curioso e un riassunto tecnico dettagliato per i ricercatori. Questo approccio garantisce che le ultime novità scientifiche siano chiare, accurate e immediatamente disponibili.

Di seguito trovate i documenti più recenti pubblicati da bioRxiv nel settore della bioinformatica, pronti per essere esplorati nelle vostre forme più accessibili.

Searching the Druggable Genome using Large Language Models

Gli autori hanno sviluppato un server DGIdb basato sul protocollo Model Context Protocol (MCP) che consente ai modelli linguistici di grandi dimensioni di accedere direttamente e in linguaggio naturale alle informazioni aggiornate del database DGIdb, migliorando significativamente la loro capacità di rispondere a domande complesse su interazioni farmaco-gene.

Schimmelpfennig, L. E., Cannon, M., Cody, Q., McMichael, J., Coffman, A., Kiwala, S., Krysiak, K. J., Wagner, A. H., Griffith, M., Griffith, O. L.2026-04-01💻 bioinformatics

Adaptive Cluster-Count Autoencoders with Dirichlet Process Priors for Geometry-Aware Single-Cell Representation Learning

Questo studio presenta un autoencoder adattivo con prior di processo di Dirichlet che, pur riducendo leggermente l'accuratezza nel recupero delle etichette, migliora significativamente la coerenza geometrica e la visualizzazione dei dati di trascrittomica a cellula singola, definendo così un regime operativo ottimale per l'analisi di traiettorie e la mappatura di programmi biologici.

Fu, Z.2026-04-01💻 bioinformatics

Benchmark of biomarker identification and prognostic modeling methods on diverse censored data

Questo studio presenta un ampio confronto di metodi per l'identificazione di biomarcatori e la modellazione prognostica su dati genomici censurati, dimostrando tramite simulazioni e analisi reali che CoxBoost e Adaptive LASSO offrono le prestazioni più robuste, fornendo così ai ricercatori linee guida per la scelta dell'approccio ottimale in base alle caratteristiche dei dati.

Fletcher, W. L., Sinha, S.2026-04-01💻 bioinformatics

Assessing the potential of bee-collected pollen sequence data to train machine learning models for geolocation of sample origin

Questo studio dimostra che i dati di metabarcoding del DNA del polline raccolto dalle api possono essere utilizzati con successo per addestrare modelli di apprendimento automatico, come Random Forest e k-NN, per prevedere con alta accuratezza l'origine geografica dei campioni senza necessità di assegnazione tassonomica.

Hayes, R. A., Kern, A. D., Ponisio, L. C.2026-04-01💻 bioinformatics

Subcellular Localization Constrains Protein Detectability and Reveals Systematic RNA-Protein Discordance Across Cancers

Questo studio dimostra che l'integrazione della localizzazione subcellulare nei modelli di machine learning migliora significativamente la predizione della rilevabilità proteica nel cancro, rivelando una diffusa discordanza tra RNA e proteine che evidenzia i limiti delle interpretazioni basate esclusivamente sull'espressione trascrizionale.

Joshi, K., Kate, S.2026-04-01💻 bioinformatics

Combining mutation detection with fragmentomics features leads to improved tumor-informed ctDNA detection

Questo studio dimostra che l'integrazione di caratteristiche fragmentomiche (come lunghezza e motivi terminali dei frammenti) con la rilevazione di mutazioni somatiche specifiche del tumore migliora significativamente l'accuratezza del rilevamento del DNA tumorale circolante (ctDNA) per la sorveglianza della malattia residua minima nel cancro del colon-retto, offrendo una strategia scalabile e priva di addestramento che supera i metodi basati esclusivamente sulla frequenza delle mutazioni.

Lin, Y., Oroperv, C., Frydendahl, A., Rasmussen, M. H., Andersen, C. L., Besenbacher, S.2026-04-01💻 bioinformatics