Leveraging Label Proportion Prior for Class-Imbalanced Semi-Supervised Learning

Cet article propose un cadre léger intégrant une nouvelle fonction de perte de proportion, issue de l'apprentissage à partir de proportions d'étiquettes, pour atténuer les biais de classe dans l'apprentissage semi-supervisé déséquilibré et améliorer significativement les performances sur des benchmarks comme CIFAR-10 à longue traîne.

Kohki Akiba, Shinnosuke Matsuo, Shota Harada, Ryoma Bise

Publié 2026-03-04
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes un professeur qui doit apprendre à des élèves à reconnaître différents animaux. Vous avez un gros classeur de photos d'animaux, mais il y a un gros problème : 90 % des photos sont de chats, et seulement quelques-unes sont de lions, d'éléphants ou de girafes. De plus, vous n'avez que très peu d'étiquettes (des petits mots qui disent "c'est un chat" ou "c'est un lion") pour vous aider.

C'est le défi de l'apprentissage semi-supervisé déséquilibré.

Voici comment les chercheurs de l'Université de Kyushu ont résolu ce problème avec une idée simple mais brillante, expliquée comme une histoire :

1. Le Problème : L'effet "Echo" des Chats

Dans les méthodes classiques d'apprentissage automatique, l'ordinateur essaie de deviner les étiquettes des photos sans étiquette (les "pseudo-étiquettes").

  • Comme il y a énormément de chats, l'ordinateur pense : "Tiens, cette photo d'un lion ressemble un peu à un chat, je vais dire que c'est un chat."
  • Il se trompe, mais comme il y a tant de chats, l'erreur passe inaperçue.
  • Pire encore, il utilise cette erreur pour apprendre : "Ah, donc les lions sont en fait des chats !"
  • Résultat : L'ordinateur devient un expert en chats, mais il oublie complètement les lions. C'est ce qu'on appelle le biais de la majorité.

2. La Solution : La "Boussole des Proportions"

Les chercheurs ont eu une idée géniale. Ils se sont dit : "Même si nous avons peu d'étiquettes, nous savons approximativement combien il y a de chats, de lions et d'éléphants dans le monde réel."

Ils ont créé un outil qu'ils appellent la "Perte de Proportion" (Proportion Loss).
Imaginez que c'est une boussole ou un thermostat placé sur le bureau du professeur.

  • Au lieu de laisser l'ordinateur décider tout seul, la boussole lui dit : "Attends, dans la vraie vie, il ne devrait y avoir que 10 % de chats et 10 % de lions dans ce tas de photos. Si tu dis qu'il y a 90 % de chats, tu te trompes !".
  • Cela force l'ordinateur à rééquilibrer ses prédictions pour qu'elles correspondent à la réalité globale, même s'il a tendance à voir des chats partout.

3. Le Défi des "Petits Paquets" (Le Mini-Batch)

Il y a un petit piège. L'ordinateur n'apprend pas tout d'un coup, mais par petits paquets (des mini-batches).

  • Imaginez que vous prenez un petit échantillon de 10 photos au hasard. Il est possible que par pur hasard, vous ayez 8 chats et 2 lions, même si la proportion réelle est différente.
  • Si vous forcez l'ordinateur à suivre la proportion globale à la lettre pour chaque petit paquet, il va paniquer et apprendre n'importe quoi (comme essayer de faire correspondre un nuage à une forme précise).

La solution créative des chercheurs :
Ils ont ajouté un peu de chaos contrôlé (une variante stochastique).
Au lieu de dire : "Il y a exactement 10 % de lions dans ce paquet", ils disent : "Il y a probablement entre 8 % et 12 % de lions, selon le hasard."
Ils utilisent une formule mathématique (la distribution hypergéométrique multivariée) pour simuler ce hasard. C'est comme si le professeur disait à l'élève : "Ne sois pas trop rigide, accepte qu'il y ait de petites variations, mais reste dans la bonne fourchette globale." Cela rend l'apprentissage beaucoup plus stable et robuste.

4. Les Résultats : Qui gagne ?

Ils ont testé cette méthode sur des jeux de données célèbres (comme CIFAR-10, qui ressemble à notre classe d'animaux).

  • Sans leur méthode : L'ordinateur oublie les animaux rares (les minorités).
  • Avec leur méthode : L'ordinateur réussit à mieux reconnaître les lions et les éléphants, tout en restant bon sur les chats.
  • C'est particulièrement efficace quand on a très peu d'étiquettes (le scénario le plus difficile), là où les autres méthodes échouent souvent.

En Résumé

Cette recherche est comme donner à un élève un guide de proportions en plus de son manuel. Au lieu de se fier uniquement à ce qu'il voit (ce qui est biaisé par la quantité), il consulte la "boussole" pour s'assurer qu'il ne néglige pas les animaux rares.

C'est simple, léger (il ne faut pas changer toute l'architecture de l'ordinateur) et cela fonctionne très bien pour corriger les injustices dans l'apprentissage des machines.