A Grammar of Machine Learning Workflows

Cet article propose une grammaire structurelle pour les workflows d'apprentissage automatique, fondée sur un graphe orienté acyclique typé et des contraintes d'exécution, afin de prévenir de manière rigoureuse les fuites de données qui faussent les performances des modèles.

Simon Roth

Publié 2026-03-12
📖 6 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée de l'article « A Grammar of Machine Learning Workflows » (Une grammaire des flux de travail d'apprentissage automatique) de Simon Roth.

Le Problème : L'Effet « Copier-Coller » de la Triche

Imaginez que vous préparez un élève pour un examen final très important.

  • La méthode normale : Vous lui donnez des cours, vous lui faites faire des exercices d'entraînement (le jeu de données d'entraînement), puis vous lui donnez un examen surprise (le jeu de données de test) pour voir s'il a vraiment appris.
  • Le problème actuel (la fuite de données) : Dans la recherche scientifique actuelle, beaucoup d'élèves trichent. Ils regardent les réponses de l'examen final avant de commencer à réviser. Ils ajustent leurs révisions en fonction des questions de l'examen. Résultat ? Ils obtiennent une note parfaite, mais ils ne savent rien. Quand ils rencontrent un vrai examen (de nouvelles données), ils échouent lamentablement.

Des études montrent que ce problème de « triche » (appelé fuite de données ou data leakage) est présent dans des centaines de papiers scientifiques. Les chercheurs essaient de le résoudre avec des listes de contrôle (des « checklists ») et des règles écrites. Mais comme on le sait, les gens oublient les règles ou les contournent.

La Solution : Une « Grammaire » Infaillible

Simon Roth propose une solution radicale : au lieu de demander aux gens de se souvenir des règles, il crée un système qui empêche physiquement la triche.

Il appelle cela une « grammaire ». C'est comme la grammaire d'une langue :

  • Si vous dites « Le chat mange la souris », c'est correct.
  • Si vous dites « Mange le chat souris la », c'est incorrect.
  • Avec une vraie grammaire, vous ne pouvez même pas écrire la phrase incorrecte.

Roth a créé une grammaire pour l'intelligence artificielle qui divise le travail en 7 étapes obligatoires (les primitives) et impose 4 règles strictes (les contraintes). Si vous essayez de faire une étape dans le mauvais ordre, le système vous dit « Non » et refuse de continuer.

Les 7 Étapes (Les Verbes de la Grammaire)

Imaginez que vous êtes un chef cuisinier. Voici comment la grammaire vous force à cuisiner proprement :

  1. Diviser (Split) : Vous prenez vos ingrédients (vos données) et vous les séparez immédiatement en trois bols :

    • Le bol Entraînement (pour apprendre).
    • Le bol Validation (pour s'entraîner et ajuster).
    • Le bol Test (scellé, caché, pour le grand examen final).
    • Règle d'or : Vous ne pouvez pas toucher au bol « Test » avant la fin.
  2. Préparer (Prepare) : Vous nettoyez et coupez les légumes. Mais attention ! Vous devez le faire séparément pour chaque bol. Vous ne pouvez pas laver tous les légumes ensemble avant de les séparer, sinon les saveurs du bol « Test » contaminent le bol « Entraînement ».

  3. Apprendre (Fit) : Vous cuisinez votre plat avec le bol « Entraînement ».

  4. Prédire (Predict) : Vous essayez votre plat sur des données inconnues.

  5. Évaluer (Evaluate) : Vous goûtez votre plat avec le bol « Validation ». Vous pouvez le faire 100 fois, ajuster les épices, recommencer. C'est votre « examen blanc ».

  6. Expliquer (Explain) : Vous analysez pourquoi le plat a bon goût (quelles épices ont fonctionné).

  7. Évaluer définitivement (Assess) : C'est le moment de vérité. Vous ouvrez le bol « Test » (scellé) et vous goûtez UNE SEULE FOIS.

    • La règle magique : Dès que vous avez goûté au bol « Test », le système verrouille le plat. Vous ne pouvez plus le modifier, ni le réévaluer. C'est fini.

Les 4 Règles de Sécurité (Les Contraintes)

Pourquoi cette grammaire est-elle si puissante ? Parce qu'elle bloque les 4 façons les plus courantes de tricher :

  1. Interdiction de relire l'examen final : Vous ne pouvez évaluer votre modèle sur le jeu de données « Test » qu'une seule fois. Si vous essayez de le faire une deuxième fois pour voir si vous pouvez améliorer le score, le système refuse. Analogie : C'est comme si un professeur vous disait : « Tu as eu ton bulletin, tu ne peux pas le changer même si tu trouves une erreur ».
  2. Préparation après la séparation : Vous ne pouvez pas nettoyer vos données avant de les séparer. Vous devez nettoyer chaque partie séparément. Analogie : Vous ne pouvez pas laver toute la vaisselle avant de séparer la vaisselle sale de la vaisselle propre, sinon l'eau sale de la vaisselle sale va salir la propre.
  3. Pas de triche avec les étiquettes : Vous ne pouvez pas regarder les réponses (les étiquettes) avant de séparer les données.
  4. Types de données stricts : Le système vérifie que vous utilisez le bon bol au bon moment. Si vous essayez de mettre des données « Test » dans le bol « Entraînement », le système crie « Non » avant même que vous ne commenciez à cuisiner.

Pourquoi c'est génial ?

  • C'est automatique : Vous n'avez pas besoin de faire attention. Si vous essayez de tricher, le code ne fonctionne tout simplement pas. C'est comme un verrou de sécurité sur une porte : vous ne pouvez pas l'ouvrir sans la clé.
  • C'est prouvé : L'auteur a testé cette grammaire avec des milliers d'expériences. Il a montré que les méthodes actuelles gonflent artificiellement les résultats (comme si un élève tricheur avait une note de 18/20 alors qu'il devrait avoir 10/20). La grammaire empêche ce gonflement.
  • C'est universel : Il a écrit ce système en trois langages différents (Python, R, Julia) et ils fonctionnent tous de la même manière. C'est comme si trois architectes différents avaient construit le même pont en suivant le même plan : le pont tient.

En Résumé

Simon Roth dit : « Arrêtons de demander aux chercheurs de ne pas tricher avec des listes de règles. Construisons un laboratoire où il est impossible de tricher. »

Cette « grammaire » est ce laboratoire. Elle transforme l'apprentissage automatique en un processus où la triche est structurellement impossible, garantissant que les résultats que nous voyons dans les journaux scientifiques sont réels et fiables, et non pas le fruit d'une erreur de manipulation.