La bioinformatica è l'incontro vitale tra biologia e informatica, un campo che trasforma i dati biologici complessi in conoscenza comprensibile. Qui esploriamo come algoritmi e software aiutino gli scienziati a decifrare il codice della vita, dall'analisi del DNA alla scoperta di nuovi farmaci, rendendo accessibili scoperte che altrimenti rimarrebbero confinate in database tecnici.

Su Gist.Science, monitoriamo ogni nuovo preprint inviato da bioRxiv in questa categoria. Per ogni articolo, offriamo una doppia prospettiva: una spiegazione semplice per chiunque sia curioso e un riassunto tecnico dettagliato per i ricercatori. Questo approccio garantisce che le ultime novità scientifiche siano chiare, accurate e immediatamente disponibili.

Di seguito trovate i documenti più recenti pubblicati da bioRxiv nel settore della bioinformatica, pronti per essere esplorati nelle vostre forme più accessibili.

Developing a Standard Definition for Sequences of Concern

Questo studio sviluppa una definizione standardizzata e un criterio scientifico per identificare le "sequenze di preoccupazione" nel contesto della sicurezza biologica, riducendo significativamente le discrepanze nelle categorizzazioni e fornendo una base fondamentale per future normative di screening.

Alexanian, T., Beal, J., Bartling, C., Berlips, J., Carr, P. A., Clore, A., Cozzarini, H., Diggans, J., El Moubayed, Y., Esvelt, K., Flyangolts, K., Foner, L., Fullerton, P. A., Gemler, B. T., Jagla (…)2026-03-18💻 bioinformatics

A Permutation-Based Framework for Evaluating Bias in Microbiome Differential Abundance Analysis

Lo studio valuta l'affidabilità di diversi metodi per l'analisi della abbondanza differenziale nel microbioma tramite strategie di permutazione, rivelando che approcci complessi basati su distribuzioni negative binomiali o correzioni per la composizionalità producono p-value distorti sotto l'ipotesi nulla, mentre i test statistici classici come il t-test e il test di Wilcoxon dimostrano una maggiore robustezza e affidabilità.

Zeng, K., Fodor, A. A.2026-03-18💻 bioinformatics

Millisecond Prediction of Protein Contact Maps from Amino AcidSequences

Questo lavoro presenta un framework generativo basato su Flow Matching che, riducendo le sequenze amminoacidiche a elementi strutturali secondari compressi, predice in millisecondi le mappe di contatto e la topologia delle proteine con alta precisione, offrendo uno strumento veloce per esplorare la relazione genotipo-fenotipo e identificare i nuclei di ripiegamento conservati.

Lin, R., Ahnert, S. E.2026-03-18💻 bioinformatics

usiGrabber: Automating the curation of proteomics spectra data at scale, making large datasets ready for use in machine learning systems

Il paper presenta usiGrabber, un framework scalabile e portatile che automatizza l'estrazione e l'indicizzazione di grandi dataset di spettrometria di massa da PRIDE, dimostrando come sia possibile preparare rapidamente dati su larga scala per l'addestramento di modelli di machine learning senza ricorrere alla curazione manuale.

Auge, G., Clausen, M., Ketterer, K., Schaefer, J., Schmitt, N., Altenburg, T., Hartmaring, Y., Raetz, H., Schlaffner, C. N., Renard, B. Y.2026-03-18💻 bioinformatics

DeSCENT: Deconvolutional Single-Cell RNA-seq Enhances Transcriptome-based Cancer Survival Analysis

Il paper presenta DeSCENT, un framework che migliora l'analisi della sopravvivenza nel cancro integrando dati di trascrittomica a singola cellula ricostruiti tramite deconvoluzione di dati RNA-seq bulk con i dati bulk originali, dimostrando prestazioni superiori rispetto ai modelli tradizionali su otto coorti TCGA.

Zhao, Y., You, Z., Shen, Y., Chu, J., Gong, X., Li, T., Wang, Z., Xu, C., Luo, Z., He, Y.2026-03-18💻 bioinformatics

Hierarchical genomic feature annotation with variable-length queries

Il paper presenta HKS, una struttura dati basata sulla SBWT che permette un'annotazione gerarchica esatta e priva di perdite di k-mer a lunghezza variabile, risolvendo le ambiguità dei multi-match e migliorando la specificità tramite un algoritmo di smoothing contestuale, come dimostrato nell'assegnazione cromosomica di genomi umani.

Alanko, J. N., Ranallo-Benavidez, T. R., Barthel, F. P., Puglisi, S. J., Marchet, C.2026-03-18💻 bioinformatics

HARVEST: Unlocking the Dark Bioactivity Data of Pharmaceutical Patents via Agentic AI

Il paper presenta HARVEST, un sistema multi-agente basato su intelligenza artificiale che estrae autonomamente milioni di dati bioattivi "oscuri" da brevetti farmaceutici, rivelando nuove strutture e target proteici assenti nei database esistenti e dimostrando i limiti attuali dei modelli di previsione strutturale.

Shepard, V., Musin, A., Chebykina, K., Zeninskaya, N. A., Mistryukova, L., Avchaciov, K., Fedichev, P. O.2026-03-18💻 bioinformatics

PREMISE: A Quality-Aware Probabilistic Framework for Pathogen Resolution and Source Assignment in Viral mNGS

Il paper introduce PREMISE, un framework probabilistico basato su allineamento e scritto in Rust che supera i metodi k-mer esistenti per l'identificazione ad alta risoluzione di ceppi virali, la stima delle abbondanze relative e il rilevamento di infezioni miste e riassortimenti nei dati di sequenziamento metagenomico.

Vijendran, S., Dorman, K., Anderson, T. K., Eulenstein, O.2026-03-18💻 bioinformatics