La bioinformatique se situe à la croisée fascinante de la biologie et de l'informatique, où des données biologiques complexes sont transformées en connaissances actionnables grâce à des algorithmes puissants. Ce domaine permet aux chercheurs de décrypter le code de la vie, d'analyser des séquences génétiques massives et de modéliser des interactions moléculaires avec une précision inédite, accélérant ainsi les découvertes médicales et biologiques.

Sur Gist.Science, nous nous engageons à rendre ces travaux accessibles à tous. Chaque nouvelle prépublication soumise sur bioRxiv dans cette catégorie est traitée par nos soins, offrant à la fois un résumé technique détaillé pour les experts et une explication claire en langage courant pour le grand public.

Vous trouverez ci-dessous la sélection des dernières études parues dans ce domaine, prêtes à être explorées.

Systematic contextual biases in SegmentNT potentially relevant to other nucleotide transformer models

Cet article identifie et caractérise des biais contextuels systématiques dans le modèle de transformateur nucléotidique SegmentNT — spécifiquement concernant la longueur de la séquence d'entrée, la position des nucléotides et une oscillation périodique de 24 nucléotides liée à la tokenisation — et propose des méthodes de normalisation pour améliorer la cohérence des prédictions et guider l'utilisation de modèles génomiques similaires.

Ebbert, M. T. W., Ho, A., Page, M. L., Dutch, B., Byer, B. K., Hankins, K. L., Sabra, H., Aguzzoli Heberle, B., Wadsworth, M. E., Fox, G. A., Karki, B., Hickey, C., Fardo, D. W., Bumgardner, C., Jakub (…)2026-05-05💻 bioinformatics

MilliMap: interactive closed-loop analysis for spatial omics

MilliMap est un cadre interactif qui unifie le calcul statistique et l'exploration spatiale pour permettre une analyse itérative en boucle fermée des données de l'omique spatiale, permettant aux chercheurs d'affiner les paramètres et de valider les résultats au sein d'un environnement unique pour des applications allant de la neuroanatomie aux microenvironnements tumoraux.

Feng, Q., Qian, S. B., Wan, J., Starr, Z. R., Asif, S., Han, H.-S.2026-05-05💻 bioinformatics

SenNet Portal: Build, Optimization and Usage

Cet article présente le portail de données SenNet, une plateforme hybride évolutive dans le cloud qui offre un accès ouvert à des ensembles de données multimodaux et multi-tissus harmonisés ainsi qu'à des outils analytiques pour caractériser systématiquement la sénescence cellulaire dans les modèles humains et murins de la recherche sur le vieillissement.

Borner, K., Blood, P. D., Silverstein, J. C., Ruffalo, M., Satija, R., Gehlenborg, N., Honick, B., Bueckle, A., Jain, Y., Qaurooni, D., Shirey, B., Sibilla, M., Metis, K., Bisciotti, J., Morgan, R. S. (…)2026-05-04💻 bioinformatics

Do Larger Models Really Win in Drug Discovery?A Benchmark Assessment of Model Scaling in AI-Driven Molecular Property and Activity Prediction

Cette étude de référence remet en question l'hypothèse selon laquelle les modèles d'IA plus grands surpassent universellement les modèles plus petits dans la découverte de médicaments, démontrant que des modèles compacts et spécialisés atteignent souvent une précision prédictive supérieure ou comparable à celle des grands modèles de base sur une variété de tâches liées aux propriétés et à l'activité moléculaires.

Guo, J.2026-05-04💻 bioinformatics

AnnotateMissense: a genome-wide annotation and benchmarking framework for missense pathogenicity prediction

AnnotateMissense est un cadre évolutif qui intègre des caractéristiques diverses de génomique et de modèles de langage protéique pour évaluer et générer des prédictions de pathogénicité haute performance pour plus de 90 millions de variants faux-sens, atteignant une précision supérieure avec un modèle XGBoost entraîné sur 132 714 variants étiquetés ClinVar.

Muneeb, M., Ascher, D. B.2026-05-04💻 bioinformatics

AI-guided discovery of atypical protein assemblies

Les auteurs ont développé l'Indice de Nouveauté Structurelle (SNI), un cadre piloté par l'intelligence artificielle qui a permis d'identifier et de valider expérimentalement un assemblage inattendu de récepteurs immunitaires NRC à onze sous-unités, démontrant ainsi une méthode évolutive pour découvrir des complexes protéiques atypiques au-delà des architectures canoniques.

Toghani, A., Seager, B. A., Sugihara, Y., Roijen, L.-M., Azcue, J. M., Garro, M., Sargolzaei, M., Morianou, I., Harant, A., Gallop, S., Kourelis, J., MacLean, D., Contreras, M. P., Kamoun, S., Lüdke (…)2026-05-04💻 bioinformatics

A 37-million-particle dataset from over 250 experiments to accelerate data-driven cryo-EM analysis

L'article présente cryoPANDA, une base de données massive de plus de 37 millions de particules cryo-ME annotées issues de 252 expériences diverses, conçue pour surmonter les limitations actuelles des données et accélérer le développement de méthodes fondées sur les données pour la biologie structurale.

Zamanos, A., Kyrilis, F. L., Koromilas, P., Kastritis, P. L., Panagakis, Y.2026-05-03💻 bioinformatics

Modeling healthy proteomic profiles for anomaly detection using subspace learning based one-class classification

Ce papier présente un cadre de classification mono-classe par sous-espace entièrement piloté par les données qui modélise les profils protéomiques plasmatiques sains pour détecter de manière robuste diverses maladies sans nécessiter d'échantillons d'entraînement pathologiques, surmontant ainsi les défis liés au déséquilibre des classes dans les données cliniques de haute dimension.

Sohrab, F., Kumar, A., Ahola, V., Magis, A., Hautamaki, V., Heinaniemi, M., Huang, S.2026-05-01💻 bioinformatics

Hierarchical Breakdown of RNA Structure Prediction in CASP16: From Reliable Local Features to Speculative Multimer Assembly

Ce papier présente une étude de cas CASP16 par LCBio démontrant que, si des workflows guidés par des experts peuvent atteindre des classements compétitifs dans la prédiction des multimères d'ARN, les méthodes actuelles présentent un déclin hiérarchique de la précision où des caractéristiques locales fiables échouent à se traduire en architectures globales précises en raison de défis persistants dans la modélisation des jonctions multi-hélices et des interactions non canoniques.

Nithin, C., Pilla, S. P., Kmiecik, S.2026-04-30💻 bioinformatics