Bias In, Bias Out? Finding Unbiased Subnetworks in Vanilla Models

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen sehr klugen, aber etwas voreingenommenen Koch. Dieser Koch hat eine riesige Sammlung von Rezepten gelernt, aber er hat einen seltsamen Fehler: Er glaubt fest daran, dass man ein Gericht nur dann als „gut" beurteilen kann, wenn es auf einem bestimmten, bunten Teller serviert wird.

Wenn Sie ihm einen Burger auf einem bunten Teller geben, sagt er: „Perfekt!"
Wenn Sie denselben Burger auf einem weißen Teller geben, sagt er: „Das schmeckt nicht!"

Der Koch hat nicht gelernt, wie der Burger schmeckt (die eigentliche Aufgabe), sondern er hat gelernt, den Teller zu erkennen (den Vorurteil- oder „Bias"-Faktor). In der Welt der künstlichen Intelligenz (KI) passiert genau das: Modelle lernen oft Abkürzungen. Statt zu verstehen, was ein Bild zeigt, merken sie sich nur, wo oder wie es oft vorkommt.

Das Problem: „Bias rein, Bias raus"

Normalerweise, wenn man einen solchen voreingenommenen Koch (ein KI-Modell) korrigieren will, muss man ihn komplett umschulen. Man nimmt ihm alle alten Rezepte weg, gibt ihm neue, faire Daten und lässt ihn von vorne anfangen. Das ist extrem teuer, dauert lange und braucht viel Energie.

Die Autoren dieses Papers stellen sich nun eine geniale Frage: Muss man den Koch wirklich umschulen? Oder ist es möglich, dass in seinem Kopf bereits ein „fauler" Teil existiert, der den Burger wirklich nach dem Geschmack beurteilt, und wir müssen ihn nur finden?

Die Lösung: BISE – Der „Koch-Schere"-Ansatz

Die Methode, die sie entwickelt haben, heißt BISE (Bias-Invariant Subnetwork Extraction). Man kann sich das wie einen sehr geschickten Gartenbesitzer vorstellen, der einen verwilderten Garten (das voreingenommene Modell) hat.

Statt den ganzen Garten abzureißen und neu zu pflanzen (das wäre das Neulernen), nimmt der Gärtner eine Schere und schneidet einfach die Unkraut-Pflanzen heraus, die den Blick auf die schönen Blumen verdecken.

Der verwilderte Garten (Das voreingenommene Modell): Das Modell wurde mit verzerrten Daten trainiert. Es ist voll von „Unkraut" (den falschen Assoziationen, wie dem bunten Teller).
Die Schere (Das Schneiden/Pruning): Die Forscher entwickeln eine Art „intelligente Schere". Diese Schere sucht nicht nach den stärksten Pflanzen, sondern nach denjenigen, die am meisten mit dem Unkraut (dem Vorurteil) verbunden sind.
Der geheime Garten (Das unvoreingenommene Subnetzwerk): Wenn man die Unkraut-Verbindungen abschneidet, bleibt ein kleinerer, aber sauberer Teil des Gartens übrig. Dieser Teil kann die Aufgabe (den Burger schmecken) immer noch perfekt erledigen, ignoriert aber den bunten Teller komplett.

Wie funktioniert das im Detail? (Die Metapher des Detektivs)

Stellen Sie sich vor, das KI-Modell ist ein Detektiv, der einen Dieb sucht. Der Detektiv hat aber eine schlechte Angewohnheit: Er verdächtigt immer nur Menschen mit roter Mütze, weil er in der Vergangenheit oft gesehen hat, dass Diebe rote Mützen trugen.

Der alte Weg: Man müsste den Detektiv in eine Schulung schicken, ihm neue Fälle zeigen und hoffen, dass er lernt, dass Diebe auch blaue Mützen tragen können.
Der BISE-Weg: Man nimmt den Detektiv und sagt: „Wir ändern nichts an deinem Wissen. Aber wir schneiden dir die Brille ab, durch die du nur rote Mützen siehst."

Die Forscher tun genau das. Sie lassen das Modell so, wie es ist, und trainieren nur eine kleine „Maske" (eine Art Schablone). Diese Maske entscheidet: „Dieser Teil des Gehirns des Detektivs schaut nur auf die rote Mütze – weg damit! Dieser Teil schaut auf das Gesicht – das behalten wir!"

Das Tolle daran:

Kein Neulernen: Das Modell muss nicht von vorne anfangen.
Schneller: Da sie Teile des Modells abschneiden, ist das Ergebnis sogar kleiner und schneller als das Original.
Fairer: Das übrig gebliebene Modell trifft Entscheidungen basierend auf dem Wesentlichen, nicht auf dem Vorurteil.

Das Ergebnis

In ihren Tests haben die Forscher gezeigt, dass diese „beschnittenen" Modelle oft sogar besser funktionieren als die großen, voreingenommenen Originale, wenn man sie auf faire Daten testet. Und wenn man sie danach noch ein kleines bisschen nachjustiert (feinabstimmt), sind sie konkurrenzfähig mit den allerbesten Methoden, die normalerweise riesige Datenmengen und viel Rechenleistung benötigen.

Zusammenfassend:
Statt einen ganzen neuen, fairen Roboter zu bauen, nehmen die Autoren einen alten, voreingenommenen Roboter, schneiden ihm die „voreingenommenen Kabel" durch und lassen ihn so weiterarbeiten. Das ist effizient, spart Energie und macht die KI gerechter – ohne dass man sie komplett neu erfinden muss. Es ist, als würde man aus einem verwöhnten Kind, das nur auf dem roten Sofa sitzen will, durch einfaches Wegnehmen des roten Sofas ein Kind machen, das auf jedem Stuhl sitzen kann.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Deep-Learning-Modelle neigen dazu, „Shortcut Learning" zu betreiben, bei dem sie statt kausaler Zusammenhänge zufällige, aber im Trainingsdatensatz stark korrelierte Merkmale (Spurious Correlations) lernen. Dies führt zu algorithmischen Verzerrungen (Bias).

Herausforderung: Bestehende Entbiasing-Methoden erfordern oft entweder:
1. Datenzentrierte Ansätze: Umverteilung der Daten oder synthetische Datenerzeugung, was bei fehlenden „Bias-conflicting" Beispielen (Datenknappheit) schwierig ist.
2. Modellzentrierte Ansätze: Komplexe Neutrainings, adversarielles Training oder das Einfügen von Fairness-Constraints, was rechenintensiv und für große Modelle unpraktisch ist.
Kernfrage: Ist es möglich, faire und bias-unabhängige Subnetzwerke aus bereits trainierten, verzerrten („vanilla") Modellen zu extrahieren, ohne das Modell neu zu trainieren oder zusätzliche, ausgewogene Trainingsdaten zu benötigen?

2. Methodik: BISE (Bias-Invariant Subnetwork Extraction)

Die Autoren schlagen BISE vor, eine Lernstrategie, die verzerrte Subnetzwerke durch Strukturiertes Pruning identifiziert und isoliert. Der entscheidende Vorteil ist, dass die ursprünglichen Gewichte des Modells unverändert bleiben; es werden nur binäre Masken gelernt.

A. Grundlegender Aufbau

Eingabe: Ein vortrainiertes, verzerrtes Modell $f = C \circ E$ (Encoder $E$ + Klassifikator $C$ ) und ein verzerrter Trainingsdatensatz $D_{train}$ .
Ziel: Finden einer Maske $M$ , die auf die Parameter von $E$ angewendet wird, sodass das resultierende Subnetzwerk $E_M$ die Zielvorhersage $y$ genau trifft, aber unabhängig vom Bias-Attribut $b$ ist.

B. Lernbarer Pruning-Masken-Mechanismus

Jeder strukturellen Komponente (z. B. Neuron oder Filter) wird ein trainierbarer Parameter $m_i$ zugeordnet.
Eine Gating-Funktion bestimmt, ob ein Neuron behalten oder entfernt wird: $\hat{h}_i = h_i \cdot \mathbb{1}\{\sigma(m_i/\tau) \ge 0.5\}$ .
Ein Temperaturparameter $\tau$ wird während des Trainings gegen Null abgeklungen (Annealing), um die Entscheidung für das Pruning zu verfestigen.
Da die Schritt-Funktion nicht differenzierbar ist, wird ein Straight-Through Estimator verwendet, um die Masken-Parameter $m_i$ mittels Gradientenabstieg zu optimieren.

C. Zielfunktion (Loss Function)

Die Optimierung minimiert eine zusammengesetzte Verlustfunktion $J$ :
$J = L_r(\hat{y}, y) + \gamma I(\hat{b}, b)$

Ausgewogener Kreuzentropie-Verlust ( $L_r$ ): Um zu verhindern, dass das Subnetzwerk weiterhin auf Bias-merkmale spezialisiert ist, werden die Verlustbeiträge von „Bias-conflicting" Beispielen (die im verzerrten Datensatz unterrepräsentiert sind) durch Gewichtung erhöht.
Regularisierung durch gegenseitige Information ( $I(\hat{b}, b)$ ):
- Ein Hilfsklassifikator $C_{aux}$ wird an den Bottleneck des Encoders angehängt, um das Bias-Attribut $b$ aus der latenten Darstellung vorherzusagen.
- Das Ziel ist es, die gegenseitige Information zwischen der Vorhersage des Hilfsklassifikators und dem wahren Bias zu minimieren.
- Dies zwingt das Subnetzwerk, Informationen über den Bias zu entfernen, während es die Aufgabe $y$ löst.

D. Ablauf (Algorithmus)

Der Encoder wird mit Masken versehen.
Der Hilfsklassifikator $C_{aux}$ wird trainiert, um die aktuelle Bias-Information im Encoder zu quantifizieren.
Die Masken-Parameter $m_i$ und $C_{aux}$ werden abwechselnd optimiert, während $\tau$ sinkt.
Am Ende wird eine binäre Maske extrahiert, die ein „unverzerrtes" Subnetzwerk definiert.
Optional kann dieses Subnetzwerk noch einmal feinabgestimmt (Finetuning) werden, um die Leistung weiter zu steigern.

3. Wichtige Beiträge

Neue Paradigmen: BISE zeigt, dass bias-freie Subnetzwerke bereits in verzerrten, dichten Modellen existieren und durch Pruning extrahiert werden können, ohne das Modell neu zu trainieren.
Ressourceneffizienz: Da keine neuen Gewichte gelernt werden und das Modell durch Pruning kleiner wird, ist die Methode rechnerisch effizient und reduziert den Speicherbedarf sowie die Inferenzkosten (FLOPs).
Keine zusätzlichen Daten: Die Methode benötigt keine ausgewogenen oder bias-konfliktierenden Datensätze, sondern funktioniert nur mit dem ursprünglichen verzerrten Trainingsset.
Strukturelle Anpassung: Im Gegensatz zu reinen Loss-Modifikationen verändert BISE die Architektur des Modells, um Bias-Abhängigkeiten physisch zu entfernen.

4. Ergebnisse

Die Methode wurde auf fünf gängigen Benchmarks getestet: BiasedMNIST, Corrupted-CIFAR10, CelebA, Multi-Color MNIST und CivilComments.

Leistung: BISE extrahiert Subnetzwerke, die auf unverzerrten Testsets eine deutlich höhere Genauigkeit erreichen als die ursprünglichen „Vanilla"-Modelle.
- Beispiel BiasedMNIST: Steigerung von ~66% (Vanilla bei starkem Bias) auf ~91% (BISE ohne Finetuning) und ~96% (mit Finetuning).
- Beispiel CelebA: Erzielte State-of-the-Art-Ergebnisse (91,8% mit Finetuning), die mit komplexeren Methoden konkurrieren.
Effizienz: Die extrahierten Subnetzwerke sind signifikant kleiner (z. B. ~67% Pruning-Rate bei CelebA) und benötigen weniger Rechenleistung (MFLOPs) bei der Inferenz.
Robustheit: Die Methode funktioniert auch in Szenarien mit mehreren Bias-Quellen (Multi-Color MNIST) und bei unsupervised Debiasing (wenn keine Bias-Labels vorhanden sind, indem sie pseudo-labels nutzt).
Vergleich: BISE übertrifft oder konkurriert mit etablierten Methoden wie LfF, Group DRO und EnD, erreicht dies jedoch mit einem kleineren Modell und ohne Neutrainingskosten.

5. Bedeutung und Fazit

Das Paper liefert einen wichtigen Beweis dafür, dass algorithmische Verzerrungen nicht zwingend durch aufwendige Neutrainings oder Datensammlung behoben werden müssen. Stattdessen können durch strukturelle Interventionen (Pruning) bereits vorhandene, faire Repräsentationen in neuronalen Netzen freigelegt werden.

Praktische Relevanz: Die Methode ist besonders für den Einsatz in ressourcenbeschränkten Umgebungen (Edge Devices) geeignet, da sie gleichzeitig Fairness und Effizienz verbessert.
Theoretische Implikation: Es wird gezeigt, dass „Bias" oft eine Eigenschaft der spezifischen Gewichtsverteilung ist, die durch das Entfernen bestimmter Neuronen eliminiert werden kann, während die kausalen Merkmale erhalten bleiben.

Zusammenfassend bietet BISE einen effizienten, datenunabhängigen Weg zur Entbiasing von Deep-Learning-Modellen, der die ethischen Anforderungen (z. B. durch den EU AI Act) mit technischer Effizienz verbindet.