A Grammar of Machine Learning Workflows

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée de l'article « A Grammar of Machine Learning Workflows » (Une grammaire des flux de travail d'apprentissage automatique) de Simon Roth.

Le Problème : L'Effet « Copier-Coller » de la Triche

Imaginez que vous préparez un élève pour un examen final très important.

La méthode normale : Vous lui donnez des cours, vous lui faites faire des exercices d'entraînement (le jeu de données d'entraînement), puis vous lui donnez un examen surprise (le jeu de données de test) pour voir s'il a vraiment appris.
Le problème actuel (la fuite de données) : Dans la recherche scientifique actuelle, beaucoup d'élèves trichent. Ils regardent les réponses de l'examen final avant de commencer à réviser. Ils ajustent leurs révisions en fonction des questions de l'examen. Résultat ? Ils obtiennent une note parfaite, mais ils ne savent rien. Quand ils rencontrent un vrai examen (de nouvelles données), ils échouent lamentablement.

Des études montrent que ce problème de « triche » (appelé fuite de données ou data leakage) est présent dans des centaines de papiers scientifiques. Les chercheurs essaient de le résoudre avec des listes de contrôle (des « checklists ») et des règles écrites. Mais comme on le sait, les gens oublient les règles ou les contournent.

La Solution : Une « Grammaire » Infaillible

Simon Roth propose une solution radicale : au lieu de demander aux gens de se souvenir des règles, il crée un système qui empêche physiquement la triche.

Il appelle cela une « grammaire ». C'est comme la grammaire d'une langue :

Si vous dites « Le chat mange la souris », c'est correct.
Si vous dites « Mange le chat souris la », c'est incorrect.
Avec une vraie grammaire, vous ne pouvez même pas écrire la phrase incorrecte.

Roth a créé une grammaire pour l'intelligence artificielle qui divise le travail en 7 étapes obligatoires (les primitives) et impose 4 règles strictes (les contraintes). Si vous essayez de faire une étape dans le mauvais ordre, le système vous dit « Non » et refuse de continuer.

Les 7 Étapes (Les Verbes de la Grammaire)

Imaginez que vous êtes un chef cuisinier. Voici comment la grammaire vous force à cuisiner proprement :

Diviser (Split) : Vous prenez vos ingrédients (vos données) et vous les séparez immédiatement en trois bols :
- Le bol Entraînement (pour apprendre).
- Le bol Validation (pour s'entraîner et ajuster).
- Le bol Test (scellé, caché, pour le grand examen final).
- Règle d'or : Vous ne pouvez pas toucher au bol « Test » avant la fin.
Préparer (Prepare) : Vous nettoyez et coupez les légumes. Mais attention ! Vous devez le faire séparément pour chaque bol. Vous ne pouvez pas laver tous les légumes ensemble avant de les séparer, sinon les saveurs du bol « Test » contaminent le bol « Entraînement ».
Apprendre (Fit) : Vous cuisinez votre plat avec le bol « Entraînement ».
Prédire (Predict) : Vous essayez votre plat sur des données inconnues.
Évaluer (Evaluate) : Vous goûtez votre plat avec le bol « Validation ». Vous pouvez le faire 100 fois, ajuster les épices, recommencer. C'est votre « examen blanc ».
Expliquer (Explain) : Vous analysez pourquoi le plat a bon goût (quelles épices ont fonctionné).
Évaluer définitivement (Assess) : C'est le moment de vérité. Vous ouvrez le bol « Test » (scellé) et vous goûtez UNE SEULE FOIS.
- La règle magique : Dès que vous avez goûté au bol « Test », le système verrouille le plat. Vous ne pouvez plus le modifier, ni le réévaluer. C'est fini.

Les 4 Règles de Sécurité (Les Contraintes)

Pourquoi cette grammaire est-elle si puissante ? Parce qu'elle bloque les 4 façons les plus courantes de tricher :

Interdiction de relire l'examen final : Vous ne pouvez évaluer votre modèle sur le jeu de données « Test » qu'une seule fois. Si vous essayez de le faire une deuxième fois pour voir si vous pouvez améliorer le score, le système refuse. Analogie : C'est comme si un professeur vous disait : « Tu as eu ton bulletin, tu ne peux pas le changer même si tu trouves une erreur ».
Préparation après la séparation : Vous ne pouvez pas nettoyer vos données avant de les séparer. Vous devez nettoyer chaque partie séparément. Analogie : Vous ne pouvez pas laver toute la vaisselle avant de séparer la vaisselle sale de la vaisselle propre, sinon l'eau sale de la vaisselle sale va salir la propre.
Pas de triche avec les étiquettes : Vous ne pouvez pas regarder les réponses (les étiquettes) avant de séparer les données.
Types de données stricts : Le système vérifie que vous utilisez le bon bol au bon moment. Si vous essayez de mettre des données « Test » dans le bol « Entraînement », le système crie « Non » avant même que vous ne commenciez à cuisiner.

Pourquoi c'est génial ?

C'est automatique : Vous n'avez pas besoin de faire attention. Si vous essayez de tricher, le code ne fonctionne tout simplement pas. C'est comme un verrou de sécurité sur une porte : vous ne pouvez pas l'ouvrir sans la clé.
C'est prouvé : L'auteur a testé cette grammaire avec des milliers d'expériences. Il a montré que les méthodes actuelles gonflent artificiellement les résultats (comme si un élève tricheur avait une note de 18/20 alors qu'il devrait avoir 10/20). La grammaire empêche ce gonflement.
C'est universel : Il a écrit ce système en trois langages différents (Python, R, Julia) et ils fonctionnent tous de la même manière. C'est comme si trois architectes différents avaient construit le même pont en suivant le même plan : le pont tient.

En Résumé

Simon Roth dit : « Arrêtons de demander aux chercheurs de ne pas tricher avec des listes de règles. Construisons un laboratoire où il est impossible de tricher. »

Cette « grammaire » est ce laboratoire. Elle transforme l'apprentissage automatique en un processus où la triche est structurellement impossible, garantissant que les résultats que nous voyons dans les journaux scientifiques sont réels et fiables, et non pas le fruit d'une erreur de manipulation.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article « A Grammar of Machine Learning Workflows » (Une grammaire des flux de travail d'apprentissage automatique) de Simon Roth (2026).

1. Le Problème : La Fuite de Données (Data Leakage)

L'article part du constat alarmant établi par Kapoor et Narayanan (2023) : 294 articles scientifiques publiés dans 17 domaines différents contiennent des erreurs de fuite de données.

Échec des solutions actuelles : La réponse dominante a été la documentation (listes de contrôle, guides de bonnes pratiques, outils de linting). Cependant, ces mesures ne préviennent pas les erreurs ; elles les détectent a posteriori.
Impact : Ces fuites faussent les résultats, notamment dans les études de neuroimagerie (17,5 % des études) et les méta-analyses.
Classes de fuites : L'article se concentre sur trois classes de fuites quantifiées empiriquement :
- Classe I (Estimation) : Prétraitement global avant le split (ex: normalisation sur l'ensemble des données). Effet négligeable ( $|d| < 0.1$ ).
- Classe II (Sélection) : « Regarder » les étiquettes du jeu de test pour sélectionner le modèle ou les hyperparamètres. Effet massif ( $d_z = 0.93$ , inflation AUC de +0,046).
- Classe III (Mémorisation) : Entraînement sur des données d'évaluation ou duplication de données. Effet variable mais significatif ( $d_z = 0.53 - 1.11$ ).

2. Méthodologie : Une Grammaire Formelle

Roth propose de passer de la documentation à une contrainte structurelle. Il définit une grammaire qui décompose le cycle de vie de l'apprentissage supervisé en un graphe orienté acyclique (DAG) typé, composé de 7 primitives noyau.

Les 7 Primitives Noyau

split : Divise un DataFrame en partitions (train, valid, test). Établit la frontière d'évaluation.
prepare : Prépare les données (normalisation, encodage). Doit être exécuté par pli (per-fold) pour éviter la fuite de Classe I.
fit : Entraîne un modèle. Nécessite des données étiquetées train ou valid.
predict : Applique le modèle à de nouvelles données (aucune contrainte de partition stricte).
evaluate : Mesure les métriques sur les données de validation (valid). Répétable et itératif.
explain : Génère des explications (importances, dépendances partielles). Primitive non contrainte.
assess : Primitive terminale. Mesure la performance sur le jeu de test (test). Exécutable une seule fois par modèle.

Les 4 Contraintes « Hard » (Inviolables)

La grammaire impose quatre règles qui rejettent les flux de travail invalides au moment de l'appel (call-time), soit par vérification de type, soit par gardes d'exécution :

Évaluation unique (assess) : Un modèle ne peut être évalué sur le jeu de test qu'une seule fois. Une seconde tentative lève une erreur de garde.
Préparation après le split : Le prétraitement doit suivre le découpage des données et être appliqué par pli.
Transitions sûres : Interdiction d'entraîner (fit) sur des données non étiquetées ou sur le jeu de test.
Pas d'accès aux labels avant le split : Interdiction de sélectionner des features en utilisant les labels du jeu de test avant le découpage.

Architecture Technique

Types Distincts : Le système distingue strictement les types Metrics (validation, réutilisable) et Evidence (test, terminal, non consommable par d'autres primitives).
Rejet Dynamique : Contrairement aux vérifications statiques, la contrainte assess-once utilise un état d'exécution (model.assessed = false) pour bloquer les appels répétés.
Implémentations : La grammaire a été implémentée de manière indépendante dans Python, R et Julia, prouvant que la spécification est language-agnostique.

3. Résultats Empiriques

L'auteur présente une étude complémentaire (Roth 2026) sur 2 047 instances expérimentales (OpenML) et 3 759 instances supplémentaires pour l'analyse de l'échelle d'échantillonnage.

Validation des effets de fuite :
- La fuite de sélection (Classe II) influe durablement sur les performances avec un plancher asymptotique positif ( $d_\infty = 0.047$ ), confirmant que l'inflation ne disparaît pas même avec de grands échantillons ( $N=2000$ ).
- La fuite de mémorisation (Classe III) dépend de la capacité du modèle (les arbres de décision mémorisent plus que les forêts aléatoires).
Prédictions de la grammaire :
- Prédiction 1 (Inflation par sélection) : Confirmée ( $d = +0.27$ ).
- Prédiction 2 (Fuite par empilement/Stacking) : Falsifiée ( $d = -0.22$ ). L'architecture hors-pli (out-of-fold) de la grammaire empêche la fuite, contrairement à ce qui était craint.
- Prédiction 3 (Inflation par sélection de graines) : Confirmée ( $d = +0.88$ ).
Résultat clé : La grammaire survit au test empirique. Elle rejette structurellement les workflows qui produisent les biais les plus importants.

4. Contributions Clés

Changement de paradigme : Passage de la détection a posteriori (linting) à la prévention structurelle par la conception de l'API.
Contrainte Terminale (assess) : C'est la première implémentation d'une contrainte de type qui force l'évaluation unique sur le jeu de test, rendant la réutilisation du test impossible par conception.
Spécification Formelle : Définition d'un DAG typé et d'un automate à états finis (DFA) pour les transitions valides des modèles (CREATED $\to$ FITTED $\to$ EVALUATED $\to$ ASSESSED).
Portabilité : La preuve que trois implémentations distinctes (Python, R, Julia) convergent vers le même comportement sans partager de code, basées uniquement sur la spécification de la grammaire.

5. Signification et Limites

Signification :

La grammaire rend les erreurs de fuite « non exécutables » plutôt que simplement « mauvaises ».
Elle internalise la séparation fondamentale entre validation (itérative) et test (terminale) directement dans le code, éliminant la dépendance à la mémoire ou à la discipline de l'utilisateur.
Elle fournit un standard de conformité (test de Codd) pour évaluer les frameworks ML futurs.

Limites et Portée :

Validité Structurelle vs Sémantique : La grammaire garantit que le flux de données est correct, mais pas que le modèle est bon (ex: choix d'un algorithme inadapté, métrique inappropriée).
Échelle de Données : Pour $N < 30$ , le découpage en trois parties devient statistiquement vide ; la grammaire s'adapte (LOO-CV) mais impose des limites.
Domaines Non Couverts : L'apprentissage en ligne (streaming), l'apprentissage non supervisé, et les données temporelles complexes nécessitent des extensions de la grammaire (bien que des primitives spécialisées comme split_temporal soient envisagées).
Fuites d'Optimisation : La grammaire empêche la fuite vers le jeu de test, mais ne limite pas le nombre d'itérations sur le jeu de validation (surajustement à la validation), ce qui reste une limite méthodologique non couverte par les types.

En conclusion, cet article propose une solution architecturale robuste au problème persistant de la fuite de données en ML, transformant une erreur méthodologique courante en une impossibilité technique au sein de l'API.