La bioinformatique se situe à la croisée fascinante de la biologie et de l'informatique, où des données biologiques complexes sont transformées en connaissances actionnables grâce à des algorithmes puissants. Ce domaine permet aux chercheurs de décrypter le code de la vie, d'analyser des séquences génétiques massives et de modéliser des interactions moléculaires avec une précision inédite, accélérant ainsi les découvertes médicales et biologiques.

Sur Gist.Science, nous nous engageons à rendre ces travaux accessibles à tous. Chaque nouvelle prépublication soumise sur bioRxiv dans cette catégorie est traitée par nos soins, offrant à la fois un résumé technique détaillé pour les experts et une explication claire en langage courant pour le grand public.

Vous trouverez ci-dessous la sélection des dernières études parues dans ce domaine, prêtes à être explorées.

Developing a Standard Definition for Sequences of Concern

Ce papier présente une définition standardisée et un ruban de décision pour identifier les « séquences préoccupantes » en biologie, élaborés grâce à l'analyse de 1,1 million de séquences et à un processus de révision par les parties prenantes, afin de réduire les désaccords de classification et de fonder les futurs standards de biosécurité.

Alexanian, T., Beal, J., Bartling, C., Berlips, J., Carr, P. A., Clore, A., Cozzarini, H., Diggans, J., El Moubayed, Y., Esvelt, K., Flyangolts, K., Foner, L., Fullerton, P. A., Gemler, B. T., Jagla (…)2026-03-18💻 bioinformatics

Millisecond Prediction of Protein Contact Maps from Amino AcidSequences

Cette étude présente un cadre génératif rapide et précis basé sur le Flow Matching qui prédit en millisecondes la topologie des contacts protéiques à partir de séquences d'acides aminés en utilisant une représentation grossière des éléments de structure secondaire, permettant ainsi d'identifier les noyaux de repliement conservés et d'explorer l'espace des génotypes-phanotypes.

Lin, R., Ahnert, S. E.2026-03-18💻 bioinformatics

usiGrabber: Automating the curation of proteomics spectra data at scale, making large datasets ready for use in machine learning systems

Le papier présente usiGrabber, un cadre évolutif et portable qui automatise l'extraction et l'indexation de données spectrales de protéomique à grande échelle depuis PRIDE, permettant ainsi de constituer rapidement des ensembles de données massifs et actualisés pour l'entraînement de modèles d'apprentissage automatique.

Auge, G., Clausen, M., Ketterer, K., Schaefer, J., Schmitt, N., Altenburg, T., Hartmaring, Y., Raetz, H., Schlaffner, C. N., Renard, B. Y.2026-03-18💻 bioinformatics

Hierarchical genomic feature annotation with variable-length queries

Ce papier présente HKS, une structure de données basée sur la SBWT qui permet l'annotation exacte et hiérarchique de k-mers de longueur variable sans approximation, en résolvant les ambiguïtés de correspondance multiple et en améliorant la spécificité grâce à un lissage contextuel, tout en offrant des performances comparables aux outils existants.

Alanko, J. N., Ranallo-Benavidez, T. R., Barthel, F. P., Puglisi, S. J., Marchet, C.2026-03-18💻 bioinformatics

HARVEST: Unlocking the Dark Bioactivity Data of Pharmaceutical Patents via Agentic AI

Le papier présente HARVEST, un pipeline d'IA multi-agents capable d'extraire automatiquement des millions de données bioactives « sombres » et auparavant inaccessibles des brevets pharmaceutiques, révélant ainsi des lacunes majeures dans les modèles d'apprentissage actuels et comblant des décennies de travail manuel.

Shepard, V., Musin, A., Chebykina, K., Zeninskaya, N. A., Mistryukova, L., Avchaciov, K., Fedichev, P. O.2026-03-18💻 bioinformatics

PREMISE: A Quality-Aware Probabilistic Framework for Pathogen Resolution and Source Assignment in Viral mNGS

Ce papier présente PREMISE, un cadre probabiliste aligné et optimisé en Rust qui surpasse les méthodes k-mer existantes pour identifier avec précision les souches virales, estimer leurs abondances relatives et détecter les infections mixtes ou les réassortiments dans les données de séquençage métagénomique.

Vijendran, S., Dorman, K., Anderson, T. K., Eulenstein, O.2026-03-18💻 bioinformatics