ECG Classification on PTB-XL: A Data-Centric Approach with Simplified CNN-VAE

Each language version is independently generated for its own context, not a direct translation.

🩺 Le Diagnostic du Cœur : Moins de "Super-Héros", Plus de Bon Sens

Imaginez que le cœur est une usine très complexe qui produit un bruit rythmé : le battement. Pour vérifier si l'usine fonctionne bien, les médecins écoutent ce bruit grâce à un électrocardiogramme (ECG), qui ressemble à une ligne de montagne dessinée sur un papier.

Le problème ? Lire ces lignes à la main est lent, fatiguant, et deux médecins peuvent parfois ne pas être d'accord sur ce qu'ils voient. C'est là que l'intelligence artificielle (IA) entre en jeu pour aider.

Mais jusqu'à présent, pour créer ces "médecins robots", les chercheurs construisaient des cerveaux artificiels énormes et ultra-complexes (des modèles profonds), un peu comme essayer de réparer une montre suisse avec un marteau-piqueur : ça marche peut-être, mais c'est lourd, cher et difficile à transporter.

L'idée de ce papier ?
Les auteurs, Naqcho et Aamir, disent : "Attendez, avant de construire un cerveau de super-héros, ne devrions-nous pas d'abord bien préparer les données ?"

Ils ont utilisé une approche "centrée sur les données" (Data-Centric). Au lieu de rendre le modèle plus compliqué, ils ont rendu les données d'entraînement plus propres et équilibrées.

🎒 Les 3 Astuces Magiques de l'Équipe

Pour entraîner leur modèle, ils ont utilisé trois techniques simples mais puissantes, que l'on peut comparer à la préparation d'un grand dîner :

1. La Cuisine Préparée (Prétraitement des données)

Imaginez que vous recevez des légumes de tailles et de couleurs différentes pour faire une soupe. Si vous les jetez tous dans la marmite sans les laver ni les couper, le goût sera bizarre.

Ce qu'ils ont fait : Ils ont "nettoyé" chaque signal cardiaque individuellement. Chaque électrode (les 12 fils de l'ECG) a été lavée et coupée à la taille parfaite (normalisation) en se basant uniquement sur ce que le modèle a appris. C'est comme ajuster le volume de chaque instrument d'un orchestre avant le concert pour qu'aucun ne crie plus fort que les autres.

2. La Balance de la Salle de Classe (Équilibrage des classes)

C'est le point le plus important. Dans les données réelles, il y a beaucoup plus de gens en bonne santé que de gens malades.

Le problème : Imaginez un prof qui a 100 élèves normaux et seulement 5 élèves en difficulté. Si le prof ne voit que les 100 élèves normaux, il oubliera comment aider les 5 autres. C'est ce qui arrive aux IA : elles deviennent excellentes pour dire "c'est normal", mais nulles pour détecter les maladies rares.
La solution : Les auteurs ont fait un "trick" intelligent. Ils ont pris les 5 élèves en difficulté (la maladie appelée Hypertrophie ou HYP) et les ont fait répéter leurs exercices plusieurs fois (sur-échantillonnage). En même temps, ils ont demandé aux 100 élèves normaux de faire une pause (sous-échantillonnage).
Résultat : La classe est maintenant équilibrée. Le modèle apprend à reconnaître tout le monde, pas seulement la majorité.

3. Le Petit Cerveau Efficace (Architecture Simplifiée CNN-VAE)

Au lieu de construire un cerveau artificiel géant avec des millions de paramètres (comme un super-ordinateur), ils ont construit un modèle petit et léger (seulement 197 000 paramètres, contre des millions pour les autres).

L'analogie : C'est comme utiliser un vélo électrique plutôt qu'un camion pour livrer un colis dans une ville. Le vélo est plus rapide, consomme moins d'énergie et passe partout.
Ce modèle utilise une technique appelée VAE (Auto-encodeur variationnel). Imaginez que le modèle ne se contente pas de regarder la ligne, il essaie de la "comprendre" en la résumant dans sa tête avant de donner son avis. Cela l'aide à mieux généraliser.

🏆 Les Résultats : Petit mais Costaud

Leur modèle a été testé sur une base de données célèbre (PTB-XL) contenant plus de 21 000 enregistrements cardiaques.

Précision globale : Il a réussi à classer correctement les battements de cœur 87 % du temps. C'est un score excellent, comparable aux modèles géants et complexes des autres chercheurs.
Le point faible : Le modèle est très bon pour dire "C'est normal" (91 % de réussite) et pour détecter les crises cardiaques aiguës. Par contre, il a encore du mal avec l'Hypertrophie (un épaississement du muscle cardiaque), qu'il rate dans 50 % des cas. C'est comme si le modèle avait du mal à voir un détail très subtil dans une image floue.
Avantage majeur : Le modèle est si petit (770 Ko) qu'il pourrait tourner sur un téléphone portable ou un petit appareil médical dans un village isolé, sans besoin d'internet ou de super-ordinateurs.

💡 La Leçon à Retenir

Ce papier nous apprend une leçon précieuse pour l'avenir de l'IA médicale :

Ne cherchez pas toujours à construire le modèle le plus compliqué. Parfois, passer plus de temps à bien nettoyer, organiser et équilibrer vos données (les "ingrédients") donne de bien meilleurs résultats que d'ajouter des couches de complexité inutile.

C'est une approche plus humble, plus efficace et surtout plus facile à déployer pour aider les médecins du monde entier, surtout là où les ressources sont limitées.

En résumé : Ils ont pris un problème difficile, ont nettoyé les données comme un chef cuisinier, ont équilibré la classe comme un bon professeur, et ont construit un petit robot efficace. Résultat : un outil de diagnostic cardiaque performant, léger et prêt à l'emploi.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les maladies cardiovasculaires restent la première cause de mortalité mondiale. L'électrocardiogramme (ECG) est l'outil diagnostique non invasif principal, mais son interprétation manuelle est lente et sujette à des variations inter-observateurs. Bien que les approches récentes d'apprentissage profond (Deep Learning) aient montré des résultats prometteurs, elles souffrent de plusieurs limitations :

Complexité architecturale : Les modèles d'état de l'art (comme les Transformers ou les ResNet profonds) sont souvent trop lourds pour un déploiement clinique dans des environnements aux ressources limitées.
Négligence des données : Beaucoup d'études se concentrent sur l'innovation architecturale au détriment de la qualité des données, du prétraitement et de la gestion du déséquilibre des classes.
Déséquilibre des classes : Le jeu de données de référence PTB-XL présente un déséquilibre sévère (par exemple, les cas de Normal (NORM) sont très majoritaires par rapport à l'Hypertrophie (HYP)), ce qui nuit à la généralisation des modèles, en particulier pour la détection des pathologies minoritaires.

L'objectif de cet article est de démontrer qu'une approche centrée sur les données (data-centric), combinée à une architecture simplifiée, peut surpasser ou égaler des modèles complexes tout en étant plus efficace et déployable.

2. Méthodologie

L'approche proposée repose sur trois piliers fondamentaux :

A. Prétraitement et Équilibrage des Données (Data-Centric)

Jeu de données : Utilisation du jeu de données PTB-XL (21 837 enregistrements ECG à 12 dérivations, 100 Hz).
Normalisation : Chaque dérivation ECG est normalisée indépendamment par score Z ( $z$ -score) en utilisant uniquement les statistiques (moyenne et écart-type) de l'ensemble d'entraînement pour éviter le data leakage.
Stratégie d'équilibrage : Une stratégie hybride a été appliquée pour corriger le déséquilibre :
- Sur-échantillonnage ciblé : La classe minoritaire Hypertrophie (HYP) a été augmentée de 2 392 à 4 000 échantillons (+67,2 %).
- Sous-échantillonnage : La classe majoritaire Normal (NORM) a été réduite à 4 000 échantillons (-53,3 %).
- Pondération des classes : Des poids de classe inversément proportionnels à la fréquence ont été appliqués, avec un multiplicateur supplémentaire de 1,5x pour la classe HYP afin d'améliorer sa sensibilité.

B. Architecture du Modèle : CNN-VAE Simplifié

Au lieu d'utiliser un VAE (Variational Autoencoder) complet avec des couches Lambda complexes (difficiles à sérialiser), les auteurs proposent une architecture CNN-VAE simplifiée :

Encodeur (CNN) : Trois couches de convolution 1D (Conv1D) avec une expansion progressive des canaux (64 → 128 → 256 filtres).
- Taille des noyaux : 5, 5 et 3 (adaptés aux composantes P, QRS et T de l'ECG).
- Régularisation : BatchNormalization, MaxPooling1D et Dropout (0,2 à 0,3).
- Agrégation : GlobalAveragePooling1D pour obtenir un vecteur de caractéristiques de 256 dimensions.
Espace Latent : Au lieu d'un échantillonnage stochastique complexe, le modèle utilise directement la moyenne ( $z_{mean}$ ) produite par une couche dense (32 dimensions) comme représentation latente, tout en conservant la structure du VAE via la fonction de perte.
Tête de classification : Deux couches entièrement connectées (Dense) suivies d'une couche de sortie Sigmoid pour la classification multi-étiquettes (5 classes : CD, HYP, MI, NORM, STTC).
Complexité : Le modèle ne compte que 197 093 paramètres (taille ~770 Ko), ce qui le rend très léger.

C. Entraînement

Fonction de perte : Binary Crossentropy (adaptée au multi-label).
Optimiseur : Adam (taux d'apprentissage 0,001).
Stratégies d'arrêt : EarlyStopping et ReduceLROnPlateau pour éviter le surapprentissage.
Validation : Split stratifié (9 plis pour l'entraînement, 1 pli pour le test) basé sur la structure PTB-XL.

3. Résultats Clés

Le modèle a été évalué sur le jeu de données PTB-XL avec les performances suivantes :

Précision Binaire (Binary Accuracy) : 87,01 %.
Score F1 Pondéré (Weighted F1-score) : 0,7454.
AUC-ROC : 0,8958 (excellente capacité de discrimination).
Comparaison : Ces résultats sont compétitifs par rapport aux modèles basés sur ResNet-50 (82,3 % de précision) tout en utilisant 60 % de paramètres en moins.

Analyse par classe :

NORM (Normal) : Excellente performance avec un rappel (Recall) de 91 % et un F1 de 0,849. Idéal pour le dépistage de type "rule-out".
STTC & MI : Performances solides (F1 > 0,70).
HYP (Hypertrophie) : Point faible du modèle. Malgré l'équilibrage, le rappel est de 50,2 % et le F1 de 0,537. Cela indique que la détection de l'hypertrophie reste difficile en raison de changements ECG subtils et d'un chevauchement de caractéristiques.

4. Contributions Principales

Validation de l'approche Data-Centric : Démonstration que le prétraitement rigoureux et l'équilibrage intelligent des données peuvent compenser la simplicité architecturale, offrant des performances comparables aux modèles complexes.
Architecture Efficace et Déployable : Proposition d'un modèle CNN-VAE simplifié, sans couches Lambda personnalisées, facilitant la sérialisation et le déploiement sur des dispositifs mobiles ou dans des environnements cliniques à ressources limitées.
Analyse Empirique des Limites : Identification claire des défis persistants dans la détection de l'hypertrophie cardiaque (HYP), fournissant des pistes pour les travaux futurs.
Pipeline Reproductible : Mise à disposition d'un pipeline complet, de la préparation des données à l'inférence, adapté aux besoins cliniques.

5. Signification et Perspectives

Cette étude souligne un changement de paradigme dans l'IA médicale : la qualité des données et leur préparation sont souvent plus déterminantes que la complexité du modèle.

Impact Clinique : La petite taille du modèle (770 Ko) et sa rapidité d'inférence (~10 ms/échantillon) le rendent idéal pour le déploiement sur des appareils portables et pour le dépistage dans les régions à faibles ressources.
Limites et Futur : Bien que performant, le modèle doit encore être validé prospectivement et sur d'autres bases de données (CPSC2018, Georgia) pour évaluer la robustesse face au domain shift. Les auteurs suggèrent d'explorer des techniques avancées (SMOTE, Focal Loss, mécanismes d'attention) pour améliorer la détection des classes minoritaires comme l'hypertrophie et d'intégrer des méthodes d'explicabilité (SHAP, LIME) pour renforcer la confiance clinique.

En conclusion, ce travail prouve qu'une approche méthodique centrée sur les données, couplée à une architecture légère, est une voie viable et efficace pour l'automatisation du diagnostic ECG.