La bioinformatique se situe à la croisée fascinante de la biologie et de l'informatique, où des données biologiques complexes sont transformées en connaissances actionnables grâce à des algorithmes puissants. Ce domaine permet aux chercheurs de décrypter le code de la vie, d'analyser des séquences génétiques massives et de modéliser des interactions moléculaires avec une précision inédite, accélérant ainsi les découvertes médicales et biologiques.

Sur Gist.Science, nous nous engageons à rendre ces travaux accessibles à tous. Chaque nouvelle prépublication soumise sur bioRxiv dans cette catégorie est traitée par nos soins, offrant à la fois un résumé technique détaillé pour les experts et une explication claire en langage courant pour le grand public.

Vous trouverez ci-dessous la sélection des dernières études parues dans ce domaine, prêtes à être explorées.

Adversarial Sequence Mutations in AlphaFold andESMFold Reveal Nonphysical StructuralInvariance, Confidence Failures, and Concerns forProtein Design

Cette étude démontre que les prédictions structurelles d'AlphaFold 3 restent étonnamment invariables face à des mutations adverses et que ses métriques de confiance sont peu fiables, suggérant que le modèle s'appuie davantage sur la mémorisation de modèles que sur un raisonnement biophysique, ce qui soulève des inquiétudes quant à son utilisation pour la conception de protéines et la découverte de médicaments.

Feldman, J., Brogi, M., Skolnick, J.2026-02-26💻 bioinformatics

OriGene: A Self-Evolving Virtual Disease Biologist Automating Therapeutic Target Discovery

Le papier présente OriGene, un système multi-agents auto-évoluant capable d'identifier et de valider de nouvelles cibles thérapeutiques pour le cancer du foie et colorectal avec une précision surpassant les experts humains, en intégrant plus de 600 outils via un protocole de contexte de modèle et un apprentissage continu par rétroaction.

Zhang, Z., Qiu, Z., Wu, Y., Li, S., Wang, D., Liu, Y., Zhou, Z., Hu, Y., Chen, Y., An, D., Wang, Y., Li, Y., Zhong, Z., Ou, C., Wang, Z., Tang, F., Chen, J. X., Ma, R., Li, J., Wang, X., Lu, W., Xue (…)2026-02-25💻 bioinformatics

MaxGeomHash: An Algorithm for Variable-Size Random Sampling of Distinct Elements

Cet article présente MaxGeomHash, un nouvel algorithme de hachage géométrique qui génère des échantillons aléatoires de taille variable et sous-linéaire pour des k-mers biologiques, offrant un compromis optimal entre efficacité de stockage et précision des estimations de similarité par rapport aux méthodes MinHash et FracMinHash existantes.

Hera, M. R., Koslicki, D., Martinez, C.2026-02-25💻 bioinformatics

PMGen: From Peptide-MHC Structure Prediction to Peptide Generation

Le papier présente PMGen, un cadre intégré qui améliore la prédiction de la structure des complexes peptide-CMH de classe I et II grâce à des stratégies d'AlphaFold2, permettant ainsi la conception de peptides guidée par la structure et la génération de données de haute qualité pour l'apprentissage automatique en immunologie.

Asgary, A. H., Aleyasin, A., Mehl, J. A., Fallah, S., Aintablian, H., Ludewig, B., Mishto, M., Liepe, J., Soeding, J.2026-02-25💻 bioinformatics

Protein Compositional Ratio Representation (PCRR)Systematically Improves Human Disease Prediction

Cette étude démontre que la modélisation des rapports logaritmiques entre protéines, plutôt que de leurs abondances absolues, améliore considérablement la prédiction des maladies humaines en capturant plus fidèlement les contraintes biochimiques sous-jacentes, comme le prouvent les gains de performance observés sur des cohortes d'Alzheimer et de la UK Biobank.

Madduri, A. V., Ellis, R. J., Patel, C. J.2026-02-25💻 bioinformatics

GaugeFixer: overcoming parameter non-identifiability in models of sequence-function relationships

Le package Python GaugeFixer résout le problème de la non-identifiabilité des paramètres dans les modèles de relations séquence-fonction en exploitant une structure mathématique spécifique pour réduire la complexité de calcul de quadratique à linéaire, permettant ainsi l'analyse et l'interprétation biologique de paysages de fitness à grande échelle.

Marti-Gomez, C., McCandlish, D. M., Kinney, J. B.2026-02-25💻 bioinformatics

Distilling Protein Language Models with Complementary Regularizers

Cette étude présente une méthode de distillation de modèles de langage protéiques massifs en modèles compacts, utilisant des régularisateurs complémentaires spécifiques aux protéines pour obtenir des gains significatifs en vitesse d'inférence, en efficacité d'échantillonnage sur des données rares et en adaptabilité, tout en permettant un déploiement sur du matériel grand public.

Wijaya, E.2026-02-25💻 bioinformatics