Deterministic Preprocessing and Interpretable Fuzzy Banding for Cost-per-Student Reporting from Extracted Records

Ce papier présente un flux de travail déterministe et reproductible, implémenté dans le script `cad_processor.py`, qui traite des extraits de base de données pour générer des rapports de coût par étudiant avec des bandes floues interprétables afin d'éclairer les décisions administratives.

Shane Lee, Stella Ng

Publié 2026-03-06
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Voici une explication de ce document technique, traduite en français simple, avec des analogies pour rendre le tout plus clair et vivant.

Imaginez que vous êtes le directeur d'une grande école. Chaque année, vous devez décider comment répartir l'argent du budget. Pour cela, vous avez besoin de savoir combien coûte l'éducation d'un seul étudiant dans chaque classe. Le problème ? Les données brutes arrivent souvent dans de gros fichiers Excel remplis de chiffres, de noms de matières et de coûts, un peu comme une immense boîte de Legos mélangés.

C'est là que les auteurs, Shane Lee et Stella Ng, interviennent avec leur "usine à données" magique. Voici comment cela fonctionne, étape par étape :

1. La Machine à Transformer (Le Prétraitement Déterministe)

Imaginez un robot très strict et très précis nommé cad_processor.py. Son travail est de prendre votre boîte de Legos (le fichier Excel brut) et de construire des châteaux parfaits (des rapports clairs).

  • La règle d'or : "Si vous changez une seule brique, le château change."
    Le robot est "déterministe". Cela signifie qu'il ne fait jamais de suppositions. Si vous lui donnez exactement le même fichier d'entrée, il produira exactement le même résultat, à la virgule près, chaque fois. C'est comme une recette de cuisine : si vous utilisez les mêmes ingrédients et la même recette, vous obtiendrez toujours le même gâteau.
  • L'empreinte digitale du fichier :
    Avant même de commencer, le robot prend une "photo numérique" (un hachage SHA-256) de votre fichier d'entrée. C'est comme une empreinte digitale unique. Si quelqu'un modifie même un seul centime dans le fichier original, l'empreinte change. Cela permet de prouver plus tard : "Nous avons bien utilisé ce fichier précis pour faire ce rapport." C'est la garantie que personne n'a triché avec les chiffres.

2. Le Tri des Données (Le Nettoyage)

Le robot trie les données avec une rigueur militaire :

  • Il ignore les lignes qui disent "Total" ou "Somme" (car elles comptent déjà tout).
  • Il transforme les cases vides en "0" (pour ne pas casser les calculs).
  • Il jette les nombres négatifs (on ne peut pas avoir -5 étudiants !).
  • Il calcule le coût par étudiant : Coût total ÷ Nombre d'étudiants.
    • Petite astuce : Si le coût est de 0 et les étudiants sont 0, le robot dit "Pas d'activité" (0/0 = 0).
    • Si le coût est de 1000€ mais qu'il n'y a aucun étudiant, le robot dit "Indéfini" (on ne peut pas diviser par zéro). Il laisse la case vide pour ne pas mentir.

3. Le Rapport Final (Les 4 Feuilles Magiques)

À la fin, le robot sort un nouveau fichier Excel avec 4 pages (feuilles) très organisées :

  1. Résumé du traitement : C'est le journal de bord. Il dit : "J'ai lu 1000 lignes, j'ai jeté 10 lignes vides, et voici l'empreinte digitale du fichier original."
  2. Analyse des tendances : Une carte de chaleur. Imaginez une carte où chaque école est colorée en vert, jaune ou rouge selon son coût par étudiant. Plus c'est rouge, plus c'est cher.
  3. Rapport détaillé : La liste complète de toutes les matières, année par année.
  4. Les Bandes Floues (Fuzzy Bands) : C'est la partie la plus créative.

4. Les "Bandes Floues" : Le Système de Feux de Signalisation

C'est ici que l'histoire devient intéressante. Au lieu de juste donner un chiffre précis (ex: 15 432 $), le système veut vous dire si c'est "Pas cher", "Moyen" ou "Cher". Mais comment définir "cher" ?

  • L'analogie du thermomètre :
    Imaginez que pour chaque année, le robot regarde tous les coûts et trouve le plus bas (le froid), le plus haut (la canicule) et le milieu (le confort).

    • Bas (Low) : Proche du minimum.
    • Moyen (Medium) : Au milieu.
    • Haut (High) : Proche du maximum.
  • La magie du "Flou" (Fuzzy) :
    Dans la vraie vie, les choses ne sont pas toujours noires ou blanches. Si un coût est exactement à la frontière entre "Moyen" et "Cher", le robot ne vous dit pas "C'est Chér". Il vous dit : "C'est à 50% Moyen et 50% Chér".
    C'est comme un feu de signalisation qui passe du vert au jaune, puis au rouge. Le robot vous donne la couleur exacte du feu à cet instant précis.

    • Pourquoi faire ? Pour aider à la décision. Si vous voyez une école en "Rouge" (Haut), vous savez qu'il faut regarder de plus près. Mais comme le robot vous donne aussi le chiffre exact et la "force" de la couleur (la probabilité d'appartenir à la catégorie), vous ne perdez pas la précision.

5. Pourquoi est-ce si important ?

Ce système répond à deux questions cruciales pour les décideurs :

  1. Peut-on faire confiance aux chiffres ? Oui, car tout est enregistré, traçable et reproductible. Si vous refaites le calcul demain avec le même fichier, vous obtiendrez le même résultat.
  2. Peut-on comprendre les chiffres ? Oui, grâce aux "Bandes Floues". Au lieu de se perdre dans des milliers de chiffres, on voit immédiatement qui est "Cher" ou "Pas cher" par rapport à la moyenne de l'année, sans perdre la possibilité de vérifier les détails.

En résumé :
C'est comme si vous aviez un assistant personnel ultra-rigoureux qui prend vos factures en vrac, les trie, calcule tout parfaitement, vous donne une empreinte digitale pour prouver qu'il n'a rien truqué, et enfin, vous montre un tableau de bord coloré (Vert/Jaune/Rouge) pour vous aider à décider où investir votre argent, tout en vous gardant les détails précis sous la main si vous voulez vérifier.