La bioinformatica è l'incontro vitale tra biologia e informatica, un campo che trasforma i dati biologici complessi in conoscenza comprensibile. Qui esploriamo come algoritmi e software aiutino gli scienziati a decifrare il codice della vita, dall'analisi del DNA alla scoperta di nuovi farmaci, rendendo accessibili scoperte che altrimenti rimarrebbero confinate in database tecnici.

Su Gist.Science, monitoriamo ogni nuovo preprint inviato da bioRxiv in questa categoria. Per ogni articolo, offriamo una doppia prospettiva: una spiegazione semplice per chiunque sia curioso e un riassunto tecnico dettagliato per i ricercatori. Questo approccio garantisce che le ultime novità scientifiche siano chiare, accurate e immediatamente disponibili.

Di seguito trovate i documenti più recenti pubblicati da bioRxiv nel settore della bioinformatica, pronti per essere esplorati nelle vostre forme più accessibili.

Neurotox: Deep learning decodes conserved hallmarks of neurotoxicity across venomous species

Il framework di deep learning Neurotox dimostra che la neurotossicità è codificata da caratteristiche distribuite nella sequenza aminoacidica che modellano l'organizzazione strutturale e l'interazione con i recettori, piuttosto che dipendere esclusivamente da singoli residui di contatto.

Bedraoui, A., El Mejjad, S., Enezari, S., El Hajji, F. Z., Galan, J., El Fatimy, R., Daouda, T.2026-03-10💻 bioinformatics

Inferring large networks with matrix factorisation to capture non-linear dependencies among genes using sparse single-cell profiles

Il metodo NIRD proposto utilizza la fattorizzazione di matrici e la regressione non lineare basata su ensemble di alberi per inferire reti geniche non lineari da profili di trascrittoma a cellula singola sparsi, superando le sfide della sparsità e dei batch effects e migliorando la predizione dei target diretti dei fattori di trascrizione quando integrato con la velocità dell'RNA.

Jha, I. P., Meshran, A. G., Kumar, V., Natarajan, K. N., KUMAR, V.2026-03-10💻 bioinformatics

Developing SCL2205 : A Protein Sequence-based Spatial Modelling Dataset for the Protein Language Model Frontier

Questo studio presenta SCL2205, un dataset di alta qualità e privo di fughe di dati derivato da UniProtKB che, grazie a un rigoroso pre-processing e a una partizione stringente, supera le prestazioni degli attuali modelli all'avanguardia nella previsione della localizzazione subcellulare delle proteine, evidenziando al contempo l'inflazione delle metriche causata da perdite di dati nei metodi esistenti.

Ouso, D., Pollastri, G.2026-03-10💻 bioinformatics

Intrinsic dataset features drive mutational effect prediction by protein language models

Lo studio dimostra che le prestazioni dei modelli linguistici proteici nella previsione degli effetti mutazionali sono determinate principalmente dalle caratteristiche intrinseche dei dataset, in particolare dalla variabilità dei valori di fitness, piuttosto che dall'architettura del modello, rivelando che in molti casi questi modelli non superano significativamente semplici baselines basate sulla fitness media dei siti.

Vieira, L. C., Lin, S., Wilke, C. O.2026-03-10💻 bioinformatics