bioinformatics articles

La bioinformatique se situe à la croisée fascinante de la biologie et de l'informatique, où des données biologiques complexes sont transformées en connaissances actionnables grâce à des algorithmes puissants. Ce domaine permet aux chercheurs de décrypter le code de la vie, d'analyser des séquences génétiques massives et de modéliser des interactions moléculaires avec une précision inédite, accélérant ainsi les découvertes médicales et biologiques.

Sur Gist.Science, nous nous engageons à rendre ces travaux accessibles à tous. Chaque nouvelle prépublication soumise sur bioRxiv dans cette catégorie est traitée par nos soins, offrant à la fois un résumé technique détaillé pour les experts et une explication claire en langage courant pour le grand public.

Vous trouverez ci-dessous la sélection des dernières études parues dans ce domaine, prêtes à être explorées.

ITSxRust: ITS region extraction with partial-chain recovery and structured diagnostics for long-read amplicon sequencing

L'article présente ITSxRust, un outil d'extraction des régions ITS en Rust optimisé pour le séquençage long-read, qui surpasse les méthodes existantes en vitesse et en précision grâce à une récupération de chaînes partielles et des diagnostics structurés.

O'Brien, A., Lagos, C., Fernandez, K., Parada, P.2026-02-26💻 bioinformatics

POTTR: Identifying Recurrent Trajectories in Evolutionary and Developmental Processes using Posets

Le papier présente POTTR, un algorithme combinatoire basé sur les ensembles partiellement ordonnés incomplets qui résout le problème NP-difficile de l'identification des trajectoires de mutations récurrentes dans des données phylogénétiques incertaines, permettant ainsi de découvrir des voies évolutives et développementales significatives dans des contextes tels que le cancer et l'embryogenèse.

Käufler, S. C., Schmidt, H., Jürgens, M., Klau, G. W., Sashittal, P., Raphael, B.2026-02-26💻 bioinformatics

MaxGeomHash: An Algorithm for Variable-Size Random Sampling of Distinct Elements

Cet article présente MaxGeomHash, un nouvel algorithme de hachage géométrique qui génère des échantillons aléatoires de taille variable et sous-linéaire pour des k-mers biologiques, offrant un compromis optimal entre efficacité de stockage et précision des estimations de similarité par rapport aux méthodes MinHash et FracMinHash existantes.

Hera, M. R., Koslicki, D., Martinez, C.2026-02-25💻 bioinformatics

PMGen: From Peptide-MHC Structure Prediction to Peptide Generation

Le papier présente PMGen, un cadre intégré qui améliore la prédiction de la structure des complexes peptide-CMH de classe I et II grâce à des stratégies d'AlphaFold2, permettant ainsi la conception de peptides guidée par la structure et la génération de données de haute qualité pour l'apprentissage automatique en immunologie.

Asgary, A. H., Aleyasin, A., Mehl, J. A., Fallah, S., Aintablian, H., Ludewig, B., Mishto, M., Liepe, J., Soeding, J.2026-02-25💻 bioinformatics

PaNDA: Efficient Optimization of Phylogenetic Diversity in Networks

Le papier présente PaNDA, un nouveau logiciel et une interface graphique qui introduisent un algorithme polynomial pour maximiser la diversité phylogénétique dans les réseaux phylogénétiques à scanwidth borné, tout en étendant la définition de cette diversité aux réseaux semi-orientés.

Holtgrefe, N., van Iersel, L., Meuwese, R., Murakami, Y., Schestag, J.2026-02-25💻 bioinformatics

Protein Compositional Ratio Representation (PCRR)Systematically Improves Human Disease Prediction

Cette étude démontre que la modélisation des rapports logaritmiques entre protéines, plutôt que de leurs abondances absolues, améliore considérablement la prédiction des maladies humaines en capturant plus fidèlement les contraintes biochimiques sous-jacentes, comme le prouvent les gains de performance observés sur des cohortes d'Alzheimer et de la UK Biobank.

Madduri, A. V., Ellis, R. J., Patel, C. J.2026-02-25💻 bioinformatics

KuPID: Kmer-based Upstream Preprocessing of Long Reads forIsoform Discovery

Le KuPID est une méthode de prétraitement rapide des lectures RNAseq longues utilisant le hachage de k-mers pour pseudo-aligner les lectures sur des isoformes de référence, ce qui permet d'accélérer la découverte d'isoformes tout en améliorant leur précision en filtrant les lectures non pertinentes avant l'alignement complet.

Borowiak, M., Yu, Y. W.2026-02-25💻 bioinformatics

GaugeFixer: overcoming parameter non-identifiability in models of sequence-function relationships

Le package Python GaugeFixer résout le problème de la non-identifiabilité des paramètres dans les modèles de relations séquence-fonction en exploitant une structure mathématique spécifique pour réduire la complexité de calcul de quadratique à linéaire, permettant ainsi l'analyse et l'interprétation biologique de paysages de fitness à grande échelle.

Marti-Gomez, C., McCandlish, D. M., Kinney, J. B.2026-02-25💻 bioinformatics

Generating Structurally Diverse Therapeutic Peptides with GFlowNet

Cet article propose l'utilisation de GFlowNet pour la génération de peptides thérapeutiques, démontrant que son échantillonnage proportionnel à la récompense permet d'obtenir une diversité structurelle intrinsèque et robuste, évitant ainsi l'effondrement de modes fréquent dans les approches d'apprentissage par renforcement traditionnelles.

Wijaya, E.2026-02-25💻 bioinformatics

Distilling Protein Language Models with Complementary Regularizers

Cette étude présente une méthode de distillation de modèles de langage protéiques massifs en modèles compacts, utilisant des régularisateurs complémentaires spécifiques aux protéines pour obtenir des gains significatifs en vitesse d'inférence, en efficacité d'échantillonnage sur des données rares et en adaptabilité, tout en permettant un déploiement sur du matériel grand public.

Wijaya, E.2026-02-25💻 bioinformatics

← Précédent Suivant →