La bioinformatique se situe à la croisée fascinante de la biologie et de l'informatique, où des données biologiques complexes sont transformées en connaissances actionnables grâce à des algorithmes puissants. Ce domaine permet aux chercheurs de décrypter le code de la vie, d'analyser des séquences génétiques massives et de modéliser des interactions moléculaires avec une précision inédite, accélérant ainsi les découvertes médicales et biologiques.

Sur Gist.Science, nous nous engageons à rendre ces travaux accessibles à tous. Chaque nouvelle prépublication soumise sur bioRxiv dans cette catégorie est traitée par nos soins, offrant à la fois un résumé technique détaillé pour les experts et une explication claire en langage courant pour le grand public.

Vous trouverez ci-dessous la sélection des dernières études parues dans ce domaine, prêtes à être explorées.

Benchmarking 80 binary phenotypes from the openSNP dataset using deep learning algorithms and polygenic risk score tools

Cette étude compare les performances de 29 algorithmes d'apprentissage automatique, de 80 modèles d'apprentissage profond et de 3 outils de scores de risque polygénique sur 80 phénotypes binaires du jeu de données openSNP, révélant que les méthodes d'apprentissage automatique surpassent les outils traditionnels pour 44 phénotypes tandis que les scores de risque polygénique sont plus performants pour 36 autres.

Muneeb, M. -, Ascher, D., Myung, Y., Feng, S., Henschel, A.2026-03-09💻 bioinformatics

MapMyCells: High-performance mapping of unlabeled cell-by-gene data to reference brain taxonomies

MapMyCells est un cadre open-source haute performance conçu pour mapper efficacement et de manière reproductible des données omiques cellulaires non étiquetées vers des taxonomies de référence hiérarchiques du cerveau, facilitant ainsi l'intégration inter-études et l'annotation des types cellulaires sans nécessiter de matériel spécialisé.

Daniel, S. F., Lee, C., Mollenkopf, T., Lee, M., Arbuckle, J., Fiabane, E., Gabitto, M. I., Johansen, N., Kapen, I., Kraft, A. W., Lai, J., Li, S. Y., McGinty, R., Miller, J. A., Welch-Moosman, S., Ot (…)2026-03-09💻 bioinformatics

Multi-Modal Protein Representation Learning with CLASP

Le papier présente CLASP, un cadre d'apprentissage tri-modal unifié qui intègre des modèles de langage pour protéines, des réseaux de neurones géométriques et des grands modèles de langage pour générer des représentations protéiques enrichies à partir de leurs séquences, structures 3D et descriptions textuelles, surpassant ainsi les méthodes actuelles dans des tâches de classification et de récupération sans apprentissage préalable.

Bolouri, N., Szymborski, J., Emad, A.2026-03-08💻 bioinformatics

An Improved Dataset for Predicting Mammal Infecting Viruses from Genetic Sequence Information

Cet article présente un jeu de données amélioré et standardisé pour prédire les virus infectant les mammifères à partir de séquences génétiques, démontrant que la précision des modèles d'apprentissage automatique s'améliore pour des rangs taxonomiques plus larges et lorsque la distance phylogénétique entre les ensembles d'entraînement et de test est réduite, tout en soulignant les limites actuelles de la généralisation à des virus totalement nouveaux.

Reddy, T., Schneider, A., Hall, A. R., Witmer, A., Hengartner, N.2026-03-08💻 bioinformatics

MiRformer: A Unified Generative Framework for mRNA-Conditioned miRNA Synthesis and Interaction Prediction

Le papier présente MiRformer, un cadre génératif unifié basé sur une architecture à double transformateur et un mécanisme d'attention glissante, capable de prédire avec précision les interactions et les sites de liaison miRNA-mRNA sur de longues séquences tout en synthétisant des séquences de miRNA conditionnées par l'ARNm avec une forte interprétabilité biologique.

Gu, J., Chen, C., Li, Y.2026-03-08💻 bioinformatics

The Stochastic System Identification Toolkit (SSIT) to model, fit, predict, and design experiments

Le toolkit SSIT est une boîte à outils logicielle open-source et flexible conçue pour modéliser, ajuster et prédire des données biologiques stochastiques tout en optimisant la conception d'expériences grâce à une variété de méthodes d'inférence et d'analyse intégrées dans l'environnement MATLAB.

Popinga, A. N., Forman, J., Svetlov, D., Vo, H. D., Munsky, B. E.2026-03-08💻 bioinformatics

HP2NET: Empowering Efficient Phylogenetic Network Analysis through High-Performance Computing

Le papier présente HP2NET, un cadre de calcul haute performance qui optimise l'analyse des réseaux phylogénétiques grâce à l'intégration de workflows automatisés, à la réutilisation des données et au traitement parallèle, permettant ainsi une réduction significative du temps d'exécution et une application efficace à l'étude de génomes viraux comme ceux de la dengue.

Terra, R., Carvalho, D., Machado, D. J., Osthoff, C., Ocana, K.2026-03-08💻 bioinformatics

MS-BCR-DB: an integrated BCR repertoire database to mine humoral multiple sclerosis signatures

Cet article présente la MS-BCR-DB, une base de données intégrée et harmonisée de répertoires de récepteurs des cellules B (BCR) chez des patients atteints de sclérose en plaques, conçue pour surmonter les limites des études fragmentées et faciliter la découverte de signatures moléculaires et de biomarqueurs liés à la maladie.

Ballerini, C., Cardente, N., Abbate, M. F., Le Quy, K., Rincon, N., Wolfram, L., Lossius, A., Portaccio, E., Amato, M. P., Ballerini, C., Greiff, V.2026-03-08💻 bioinformatics