A Confidence-Variance Theory for Pseudo-Label Selection in Semi-Supervised Learning

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous apprenez une nouvelle langue avec un ami qui est très confiant, mais pas toujours très précis.

Dans le domaine de l'intelligence artificielle, et plus particulièrement dans l'apprentissage semi-supervisé, nous faisons souvent la même chose : nous demandons à un modèle d'IA d'apprendre sur des données qu'il n'a jamais vues (des données non étiquetées) en lui faisant confiance quand il est "sûr de lui".

Le problème ? Comme beaucoup d'humains, les IA sont souvent trop sûres d'elles. Elles peuvent crier "C'est un chat !" avec une confiance de 99 %, alors que c'est en fait un chien. Ou pire, elles peuvent ignorer des réponses intéressantes mais incertaines qui se trouvent juste à la frontière entre deux catégories.

Voici comment les auteurs de cette paper, Liu et al., proposent de régler ce problème avec leur nouvelle théorie appelée CoVar (Confiance-Variance).

1. Le Problème : Le "Moi-je-sais-tout" de l'IA

Actuellement, la plupart des méthodes fonctionnent comme un garde du corps très strict :

La règle actuelle : "Si tu es sûr à plus de 95 %, je garde ta réponse. Sinon, je la jette."
Le défaut : L'IA peut être sûre à 95 % et se tromper complètement (c'est ce qu'on appelle le surconfiance). De plus, elle jette souvent des réponses qui sont à 80 % de confiance mais qui sont en réalité très précieuses pour apprendre. C'est comme rejeter un élève qui hésite un peu mais qui a la bonne réponse, juste parce qu'il n'a pas crié "Je le sais !" assez fort.

2. La Solution CoVar : La "Confiance" et la "Stabilité"

Les auteurs disent : "Ne regardez pas seulement à quel point l'IA est confiante, regardez aussi à quel point elle est cohérente."

Ils introduisent deux concepts clés :

MC (Confiance Maximale) : C'est le niveau de certitude de l'IA (ex: 95 %).
RCV (Variance des Classes Résiduelles) : C'est la mesure de la confusion dans le fond. Imaginez que l'IA dit "C'est un chat à 95 %". La question est : que pense-t-elle des 5 % restants ?
- Scénario A (Bon) : Elle pense "C'est un chat à 95 %, et les 5 % restants sont répartis uniformément entre le chien, la voiture et la pomme". C'est stable.
- Scénario B (Mauvais) : Elle pense "C'est un chat à 95 %, mais il y a 4 % de chance que ce soit un chien et 1 % de voiture". C'est instable. Elle est très sûre d'elle, mais son cerveau est en train de vaciller sur les autres options.

L'analogie du chef d'orchestre :
Imaginez un chef d'orchestre (l'IA).

La Confiance, c'est le volume de sa voix.
La Variance, c'est le bruit de fond des autres musiciens.
Si le chef crie très fort (haute confiance) mais que les violons jouent une mélodie complètement différente (haute variance), il y a un problème. CoVar dit : "On ne garde que les chefs qui crient fort ET dont l'orchestre est parfaitement synchronisé."

3. Comment ça marche ? (La Magie Mathématique)

Au lieu de fixer une règle rigide ("Plus de 95 % = OK"), les auteurs ont créé un système dynamique :

Plus l'IA est confiante, plus le système devient exigeant sur la cohérence de ses autres choix.
C'est comme un examen : si vous répondez "100 % sûr" à une question, le correcteur vérifiera vos autres réponses avec une loupe. Si vous êtes juste "sûr à 80 %", il sera plus indulgent.

Ils utilisent une technique mathématique appelée "relaxation spectrale" (un peu comme trier des billes de différentes couleurs et tailles en les faisant rouler sur une pente intelligente) pour séparer automatiquement les bonnes réponses des mauvaises, sans avoir besoin de régler manuellement des boutons compliqués.

4. Les Résultats

Les auteurs ont testé leur méthode sur des tâches complexes comme :

Reconnaître des objets dans des photos (Classification d'images).
Découper une image en zones (ex: distinguer la route, les piétons et les voitures dans une photo de ville).

Les résultats montrent que CoVar est comme un filtre de qualité supérieur. Il permet à l'IA d'apprendre plus vite et mieux, même avec très peu d'exemples étiquetés. Il évite les erreurs classiques où l'IA se trompe en étant trop sûre d'elle, et il aide même les classes rares (les "minorités") à être mieux prises en compte, contrairement aux méthodes actuelles qui favorisent les classes populaires.

En résumé

Cette paper nous dit : Arrêtez de faire confiance aveuglément à la confiance de l'IA.
Au lieu de demander "Es-tu sûr ?", demandez "Es-tu sûr ET est-ce que ton incertitude est bien répartie ?". En combinant ces deux mesures, on obtient un système qui choisit ses propres leçons beaucoup plus intelligemment, rendant l'apprentissage de l'IA plus robuste et plus juste.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'apprentissage semi-supervisé (SSL) vise à exploiter une grande quantité de données non étiquetées avec peu de données étiquetées. La méthode centrale, le pseudo-étiquetage, génère des étiquettes à partir des prédictions du modèle lui-même. Cependant, les stratégies actuelles reposent presque exclusivement sur des seuils de confiance fixes (par exemple, ne sélectionner que les prédictions avec une probabilité > 0,95).

L'article identifie deux problèmes majeurs liés à cette approche :

La surconfiance (Overconfidence) : Les réseaux de neurones profonds sont souvent mal calibrés. Une haute confiance ne garantit pas la justesse de la prédiction (faux positifs à haute confiance).
Le biais de classe et la perte d'information : Les seuils fixes éliminent systématiquement les échantillons à faible confiance, qui se trouvent souvent près des frontières de décision et sont pourtant informatifs. De plus, cela crée un biais vers les classes majoritaires, car les classes minoritaires ont tendance à avoir des scores de confiance plus faibles, ce qui aggrave le déséquilibre des données.

2. Méthodologie : Le Cadre Théorique CoVar

Les auteurs proposent un cadre théorique unifié appelé CoVar (Confidence-Variance), basé sur le principe de minimisation de l'entropie.

A. Décomposition Théorique

En partant de la fonction de perte d'entropie croisée (Cross-Entropy), les auteurs dérivent une décomposition de second ordre pour une seule prédiction. Ils montrent que la fiabilité d'un pseudo-étiquetage dépend de deux facteurs conjoints :

Confiance Maximale (MC - Maximum Confidence) : La probabilité de la classe prédite.
Variance des Classes Résiduelles (RCV - Residual Class Variance) : Une mesure de la dispersion de la masse de probabilité parmi les classes non maximales.

La théorie démontre qu'une prédiction fiable doit avoir une MC élevée ET une RCV faible (c'est-à-dire une distribution uniforme des probabilités résiduelles).

Interaction dynamique : L'impact de la RCV sur la fiabilité n'est pas linéaire. À mesure que la confiance (MC) augmente, le "pénalité" associée à une RCV élevée s'amplifie. Cela permet de corriger les prédictions surconfiantes mais instables (où la probabilité est concentrée sur la classe prédite mais avec une variance résiduelle anormale).

B. Sélection au Niveau du Lot (Batch-Level)

Pour éviter les biais liés aux échantillons individuels et aux déséquilibres de classes dans un mini-lot, les auteurs étendent l'analyse au niveau du lot. Ils décomposent l'erreur moyenne du lot en trois termes :

Le gain de confiance global (MC).
La suppression de la surconfiance via la réduction de la variance résiduelle moyenne (sRCV).
Un terme de covariance $Cov(g, v)$ qui mesure si la haute confiance coïncide avec une bonne distribution résiduelle. Ce terme aide à corriger le biais vers les classes majoritaires.

C. Algorithme de Sélection : Relaxation Spectrale

Au lieu d'utiliser un seuil fixe, la sélection de pseudo-étiquettes est formulée comme un problème de partitionnement dans un espace de caractéristiques "Confiance-Variance".

Encodage : Chaque prédiction est représentée par un vecteur combinant le logarithme de la confiance et la variance résiduelle pondérée.
Clustering Spectral : Le problème est résolu par une relaxation spectrale (similaire au clustering spectral). Cela permet de séparer automatiquement les prédictions en deux groupes (haute fiabilité / faible fiabilité) sans seuil manuel.
Pondération : Les échantillons identifiés comme fiables reçoivent un poids de perte (souvent 1), tandis que les autres sont pondérés ou ignorés, en utilisant une fonction de pondération gaussienne basée sur la distribution des clusters.

3. Contributions Clés

Théorie CoVar : Établissement d'un critère de fiabilité basé sur la décomposition de l'entropie croisée en MC et RCV, avec des bornes d'approximation explicites et un terme de pondération adaptatif qui pénalise davantage la variance résiduelle lorsque la confiance est élevée.
Correction du Biais de Classe : Démonstration théorique et pratique que le contrôle conjoint de la MC et de la RCV atténue le biais de sélection vers les classes majoritaires, stabilisant la couverture des pseudo-étiquettes sur les classes "têtes" et "queues" (minoritaires).
Mécanisme Sans Seuil : Conception d'une méthode de sélection adaptative via relaxation spectrale qui élimine le besoin de régler manuellement des seuils de confiance ( $\tau$ ), offrant une solution robuste et généralisable.

4. Résultats Expérimentaux

Le cadre CoVar a été intégré comme module plug-and-play dans des méthodes de pointe (SOTA) pour la segmentation sémantique et la classification d'images.

Jeux de données : PASCAL VOC 2012, Cityscapes, CIFAR-10, Mini-ImageNet.
Performances :
- Segmentation Sémantique : Sur PASCAL VOC et Cityscapes, CoVar améliore systématiquement les performances (mIoU) par rapport aux bases fortes (UniMatch, CSL, CorrMatch) avec différents backbones (ResNet-101, DINOv2-B). Les gains sont particulièrement notables dans les régimes à faible étiquetage (ex: 1/16 des données étiquetées).
- Classification d'Images : Sur CIFAR-10 et Mini-ImageNet, CoVar bat ou égale les méthodes actuelles (FlexMatch, FreeMatch, SimPLE). Sur Mini-ImageNet, les gains sont significatifs (+2 à +3 points de précision), montrant que la méthode est efficace pour les tâches à granularité fine.
Analyse : Les ablations confirment que l'utilisation de la RCV est supérieure aux métriques traditionnelles (entropie, marge) et que la pondération non linéaire adaptative est cruciale pour la performance.

5. Signification et Impact

Cet article apporte une contribution fondamentale en remettant en question l'hypothèse implicite selon laquelle "la confiance égale la justesse".

Théorique : Il fournit une justification mathématique rigoureuse pour l'utilisation de la variance des classes résiduelles comme indicateur de fiabilité, dépassant les simples heuristiques.
Pratique : Il propose une solution robuste au problème de la surconfiance et du déséquilibre des classes, deux obstacles majeurs en SSL.
Généralité : En étant un module "plug-and-play" sans seuil fixe, CoVar peut être facilement intégré dans divers pipelines d'apprentissage semi-supervisé, améliorant la sélection des pseudo-étiquettes et, par conséquent, la performance finale du modèle, même avec des architectures de pointe.

En résumé, CoVar remplace les filtres statiques par une sélection dynamique et théoriquement fondée, permettant d'exploiter plus efficacement les données non étiquetées tout en réduisant le bruit et les biais dans l'apprentissage.