Leveraging Label Proportion Prior for Class-Imbalanced Semi-Supervised Learning

Die Arbeit stellt einen leichten Rahmen für das semi-überwachte Lernen bei Klassenungleichgewicht vor, der erstmals den Proportion Loss aus dem Lernen aus Label-Anteilen als Regularisierungsterm einführt, um durch die Ausrichtung der Modellvorhersagen an der globalen Klassenverteilung die Verzerrung zugunsten von Mehrheitsklassen zu mindern und die Leistung unter knappen Label-Bedingungen zu verbessern.

Kohki Akiba, Shinnosuke Matsuo, Shota Harada, Ryoma Bise

Veröffentlicht 2026-03-04
📖 3 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind ein Lehrer in einer Klasse, die aus 900 Schülern besteht. Aber hier ist das Problem: 800 davon sind „Experten" für das Thema „Fußball", während nur 20 Schüler „Experten" für „Klassische Musik" sind.

Jetzt haben Sie nur sehr wenige Arbeitsblätter (gelabelte Daten), um den Schülern zu zeigen, wie man die Aufgaben löst. Die meisten Arbeitsblätter sind zufällig von den Fußball-Experten ausgefüllt.

Das Problem: Der „Fußball-Effekt"

Wenn Sie nun versuchen, den Rest der Klasse zu unterrichten, indem Sie den Schülern sagen: „Versucht es selbst, und wenn ihr unsicher seid, schaut auf das, was die anderen sagen" (das nennt man Pseudo-Labeling im KI-Deutsch), passiert Folgendes:
Die Fußball-Expanten werden immer lauter. Die KI lernt: „Fußball ist das Wichtigste!" und ignoriert die Musik-Schüler komplett. Die KI wird so voreingenommen, dass sie am Ende fast nur noch Fußball antwortet, selbst wenn die Frage eigentlich nach Musik war. Das ist das Problem des klassenungleichen Lernens.

Die Lösung: Der „Gesamt-Plan" (Proportion Loss)

Die Autoren dieses Papers haben eine clevere Idee: Sie geben der KI einen „Gesamt-Plan" (einen Prior) über die Verteilung der Schüler.

Statt nur zu schauen, was die aktuellen Schüler sagen, sagt die KI: „Moment mal, ich weiß aus dem Register, dass in dieser Klasse eigentlich nur 2 % Musik-Experten sind. Wenn meine Vorhersagen plötzlich 50 % Musik ergeben, dann stimmt etwas nicht!"

Das ist die Proportion Loss (Verlust durch Anteile). Es ist wie ein Zügel, der die KI daran erinnert, dass sie die Welt so abbilden muss, wie sie wirklich ist – mit allen kleinen und großen Gruppen, nicht nur mit den lautesten.

Der Clou: Der „Zufalls-Würfel" (Stochastische Variante)

Es gibt noch ein kleines Problem: Wenn die KI nur eine kleine Gruppe von Schülern (einen Mini-Batch) betrachtet, kann es sein, dass sie zufällig 5 Musik-Schüler trifft, obwohl es im Ganzen nur 2 gibt. Wenn die KI jetzt stur sagt: „Okay, ich muss jetzt genau 50 % Musik vorhersagen", wird sie verrückt und lernt das Falsche aus diesem Zufall.

Die Autoren lösen das mit einem Zufalls-Würfel.
Statt der KI zu sagen: „Du musst exakt 2 % Musik vorhersagen", sagen sie: „Du musst ungefähr 2 % vorhersagen, aber es darf auch mal ein bisschen schwanken, je nachdem, welche Schüler gerade in der Gruppe sind."

Sie modellieren diese Schwankungen mathematisch (mit einer hypergeometrischen Verteilung, aber nennen wir es einfach „Zufalls-Würfel"). Das verhindert, dass die KI sich zu sehr auf einen einzigen, zufälligen Moment festlegt. Sie wird robuster.

Was passiert am Ende?

Die Forscher haben das an einem Standard-Test (CIFAR-10) ausprobiert, bei dem Bilder von Tieren und Objekten in sehr ungleichen Mengen vorkamen.

  • Ohne Hilfe: Die KI ignoriert die seltenen Tiere (z. B. den einen Tiger) und erkennt nur die häufigen (z. B. Hunde).
  • Mit dem „Gesamt-Plan": Die KI wird disziplinierter. Sie sagt: „Ich weiß, dass es nur einen Tiger gibt, also muss ich besonders aufpassen, wenn ich einen sehe, statt einfach wieder einen Hund zu rufen."

Das Ergebnis: Die KI wird nicht nur insgesamt besser, sondern erkennt auch die seltenen Dinge (die Minderheiten) viel genauer als vorher. Besonders wenn nur sehr wenige Beispiele zum Lernen vorhanden sind, ist diese Methode ein echter Game-Changer.

Zusammenfassung in einem Satz

Die Autoren haben eine Methode entwickelt, die KI daran erinnert, dass die Welt nicht nur aus den lautesten Gruppen besteht, und nutzen einen cleveren Zufallsmechanismus, damit die KI nicht auf kleine, zufällige Schwankungen in den Daten hereinfällt.