Learning Concept Bottleneck Models from Mechanistic Explanations

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen extrem klugen, aber stummen Assistenten (das ist unser KI-Modell), der Bilder perfekt erkennt. Er kann dir sagen: "Das ist ein Zebra!" oder "Das ist ein Hautkrebs!", aber er kann dir nicht erklären, warum er das denkt. Er ist wie ein "Black Box"-Magier, der die Antwort aus dem Hut zaubert, ohne den Trick zu verraten.

Das Problem: Wenn wir versuchen, ihm eine Sprache beizubringen, indem wir ihm von vornherein eine Liste von Begriffen geben (z. B. "Streifen", "Schwarz-Weiß-Muster"), scheitert das oft. Warum? Weil der Magier vielleicht andere, für uns unsichtbare Tricks benutzt, die auf unserer Liste gar nicht stehen. Oder die Begriffe, die wir ihm geben, sind für die Aufgabe gar nicht gut genug.

Die Autoren dieses Papers haben eine neue Methode namens M-CBM (Mechanistic Concept Bottleneck Model) entwickelt. Hier ist die Erklärung in einfachen Worten, mit ein paar kreativen Vergleichen:

1. Das Problem: Der "Vorschul"-Ansatz

Bisher haben Forscher versucht, KI-Modelle zu erklären, indem sie ihnen eine Liste von Begriffen vor die Nase hielten (wie ein Lehrer, der einem Kind sagt: "Lerne erst die Farben, dann lerne das Tier").

Das Problem: Die KI könnte denken: "Okay, ich lerne 'Streifen', aber eigentlich erkenne ich das Tier nur an einem winzigen Detail, das ihr nicht auf der Liste habt."
Die Folge: Die KI wird zwar "erklärbar" gemacht, aber sie wird dümmer, weil sie gezwungen ist, Begriffe zu nutzen, die sie gar nicht wirklich braucht oder versteht.

2. Die Lösung: Den "Gedankenraum" der KI abhören

Statt der KI vorzuschreiben, was sie denken soll, sagen die Autoren: "Hör einfach zu, was die KI gerade denkt!"

Stell dir das Gehirn der KI wie einen riesigen, dunklen Raum voller tausender kleiner Lichtschalter (Neuronen) vor. Normalerweise sehen wir nur, welche Lampe am Ende angeht (das Ergebnis: "Zebra"). Aber wir wissen nicht, welche Schalter davor gedrückt wurden.

Schritt 1: Der Detektiv (SAE)
Die Autoren nutzen ein Werkzeug namens Sparse Autoencoder (SAE). Das ist wie ein sehr geschickter Detektiv, der in den dunklen Raum geht und herausfindet: "Aha! Immer wenn dieser eine Schalter angeht, sieht die KI 'Streifen'. Und wenn dieser andere angeht, sieht sie 'Schwarzes Fell'."
Der Detektiv sortiert die tausenden chaotischen Lichtschalter in klare, verständliche Konzepte. Er findet die Begriffe, die die KI tatsächlich benutzt, nicht die, die wir ihr aufzwingen wollen.

Schritt 2: Der Übersetzer (Multimodales LLM)
Jetzt haben wir die Schalter, aber sie heißen nur "Schalter 452" und "Schalter 891". Das hilft uns nichts.
Hier kommt eine moderne KI (ein "Sprach-Assistent" wie GPT-4) ins Spiel. Der Detektiv zeigt dem Sprach-Assistenten Bilder, bei denen Schalter 452 leuchtet, und Bilder, bei denen er dunkel bleibt.
Der Sprach-Assistent sagt dann: "Oh, das ist doch einfach 'Streifen'!" und gibt dem Schalter einen menschlichen Namen. Er wird zum Übersetzer, der die kryptische Sprache der KI in menschliches Deutsch übersetzt.

Schritt 3: Die neue KI (M-CBM)
Jetzt bauen wir eine neue KI, die genau diese übersetzten Begriffe nutzt.

Sie schaut auf das Bild.
Sie denkt: "Ich sehe 'Streifen' (Schalter 452 an) und 'Schwarzes Fell' (Schalter 891 an)."
Daraus schließt sie: "Das ist ein Zebra."

Das Tolle daran: Da die Begriffe direkt aus dem Gehirn der alten KI stammen, ist die neue KI fast genauso schlau wie die alte, aber sie kann uns genau sagen, worauf sie geachtet hat.

3. Das neue Maß: Der "Fokus-Test" (NCC)

Ein großes Problem bei solchen Erklärungen ist oft, dass die KI zu viele Dinge aufzählt ("Streifen, Fell, Augen, Ohren, Hintergrund..."). Das ist keine gute Erklärung.

Die Autoren führen einen neuen Test ein, den sie NCC (Number of Contributing Concepts) nennen.

Vergleich: Stell dir vor, du musst jemandem erklären, warum du ein Auto gekauft hast.
- Schlechte Erklärung: "Weil es Räder hat, Motor hat, Farbe hat, Preis hat, Wetter war gut, ich war müde..." (Zu viele Gründe, keine Klarheit).
- Gute Erklärung (NCC): "Weil es schnell ist und günstig." (Nur 2 wichtige Gründe).

Der NCC-Test misst: Wie viele Begriffe braucht die KI wirklich, um zu 95 % sicher zu sein? Wenn sie mit nur 3 oder 4 Begriffen auskommt, ist die Erklärung "knackig" und ehrlich. Wenn sie 50 Begriffe braucht, ist sie wahrscheinlich verwirrt oder versucht, Tricks zu nutzen.

Zusammenfassung in einem Satz

Die Autoren haben eine Methode erfunden, bei der wir nicht raten, was eine KI denkt, sondern ihr zuhören, ihre eigenen Gedanken in menschliche Worte übersetzen lassen und dann eine neue, ehrliche KI bauen, die genau weiß, warum sie entscheidet – und das alles, ohne dabei ihre Intelligenz zu verlieren.

Warum ist das wichtig?
In Bereichen wie Medizin oder autonomem Fahren wollen wir nicht nur wissen, dass die KI recht hat, sondern warum. Diese Methode macht die KI nicht nur sicherer, sondern auch verständlicher für uns Menschen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung und Motivation

Hintergrund:
Concept Bottleneck Models (CBMs) sind ein Ansatz für ante-hoc Interpretierbarkeit (Erklärbarkeit durch Design). Sie trainieren Modelle, zunächst eine Reihe von interpretierbaren Konzepten (z. B. „gestreift", „hat Flügel") vorherzusagen, bevor die finale Klassifizierung erfolgt.

Das Problem:
Der aktuelle Stand der Technik (State-of-the-Art) definiert diese Konzepte oft a-priori durch menschliche Experten, Wissensgraphen, LLM-Prompts oder allgemeine CLIP-Konzepte. Dies führt zu zwei Hauptproblemen:

Mangelnde Vorhersagekraft: Die vordefinierten Konzepte sind für die spezifische Aufgabe oft nicht ausreichend aussagekräftig oder aus den verfügbaren Daten nicht lernbar.
Informationsleckage (Information Leakage): Um die Genauigkeit zu retten, neigen CBMs dazu, „versteckte" Muster in den Konzepten zu kodieren, die nichts mit der Semantik des Konzepts zu tun haben, aber für die Klasse relevant sind. Dies macht das Modell im Wesentlichen wieder zu einer Blackbox, da die finale Schicht diese Lecks ausnutzt.

Ziel der Autoren ist es, CBMs zu entwickeln, die direkt auf den tatsächlich gelernten Konzepten eines Blackbox-Modells basieren, um sowohl die Vorhersagekraft als auch die echte Interpretierbarkeit zu verbessern.

2. Methodik: Mechanistic CBM (M-CBM)

Die Autoren stellen eine neue Pipeline namens Mechanistic CBM (M-CBM) vor, die ein trainiertes Blackbox-Modell in ein interpretierbares CBM umwandelt. Der Prozess besteht aus vier Hauptschritten (siehe Abbildung 1 im Paper):

Schritt 1: Konzept-Extraktion via Sparse Autoencoders (SAEs)

Anstatt Konzepte zu raten, extrahiert M-CBM diese direkt aus den Aktivierungen des Blackbox-Backbones (z. B. ResNet).

SAE-Training: Ein Sparse Autoencoder wird auf die Feature-Aktivierungen des Backbones trainiert. Das Ziel ist es, die Eingabe zu rekonstruieren, während eine Sparsity-Strafe ( $L_1$ -Norm) auf die versteckte Darstellung angewendet wird.
Entwirrung: Durch die Sparsity lernen einzelne Neuronen im SAE, spezifische, monosemantische Konzepte zu repräsentieren (Entwirrung der Features).
Filterung: „Tote" oder fast tote Neuronen werden entfernt, um sicherzustellen, dass nur Neuronen mit signifikantem Beitrag zur Vorhersageleistung für die Annotation verwendet werden.

Schritt 2: Konzept-Naming mit Multimodalen LLMs (MLLM)

Jedes verbleibende SAE-Neuron muss einem menschlich verständlichen Namen zugeordnet werden.

Beispielgenerierung: Für jedes Neuron werden Bilder ausgewählt, die dieses Neuron stark aktivieren (positive Beispiele) und solche, die es nicht aktivieren (negative Beispiele).
Saliency Maps: Es werden räumliche Saliency-Karten berechnet, um dem MLLM zu zeigen, wo im Bild das Konzept aktiv ist.
Prompting: Ein Multimodales LLM (in den Experimenten GPT-4.1) erhält diese Paare aus Bildern und Saliency-Karten und wird aufgefordert, eine kurze, natürliche Sprachbeschreibung des Konzepts zu generieren.
Merging: Semantisch redundante Namen werden durch Embedding-Ähnlichkeit zusammengeführt.

Schritt 3: Datensatz-Annotation

Da die Namen nur Hypothesen sind, wird ein Teil des Datensatzes annotiert, um die tatsächliche Präsenz der Konzepte zu verifizieren.

Strategie: Für jedes Konzept werden bis zu 1000 Bilder annotiert (eine Mischung aus stark aktivierenden Bildern und zufälligen/nicht-aktivierenden Bildern).
MLLM-Annotation: Das MLLM annotiert diese Bilder (Präsenz/Absenz des Konzepts). Um Kosten zu senken, werden Bilder in 5x5-Gittern (25 Bilder pro Batch) verarbeitet.
Labeling: Es entsteht ein ternärer Vektor für jedes Bild: 1 (vorhanden), 0 (abwesend), -1 (nicht annotiert).

Schritt 4: Training des Concept Bottleneck Models

CBL (Concept Bottleneck Layer): Ein Modell wird trainiert, um die annotierten Konzepte aus den Backbone-Features vorherzusagen (Multi-Label-Klassifikation).
Sparse Linear Classifier: Eine letzte Schicht (GLM-SAGA Solver) lernt, die Konzepte auf die Zielklassen abzubilden. Um Informationsleckage zu kontrollieren, wird ein Elastic-Net-Regularizer verwendet, um die Sparsity der Gewichte zu erzwingen.

3. Schlüsselbeiträge und Metriken

Number of Contributing Concepts (NCC)

Die Autoren führen eine neue Metrik ein, um Informationsleckage und Erklärungs-Konkurrenz zu messen.

Hintergrund: Bisherige Metriken wie Number of Effective Concepts (NEC) zählen nur nicht-null Gewichte. Dies ist jedoch problematisch, da eine Klasse viele Konzepte haben kann, aber nur wenige für eine spezifische Vorhersage relevant sind.
Definition NCC: NCC misst die Anzahl der Konzepte, die benötigt werden, um einen bestimmten Anteil ( $\tau$ , z. B. 95 %) der absoluten Entscheidungsgewichtung für eine Klasse zu erklären.
Vorteil: NCC erlaubt es, Modelle bei gleicher „Erklärungskürze" (Sparsity auf Entscheidungsebene) fair zu vergleichen, ohne die effektive Vokabulargröße künstlich zu begrenzen.

Vergleich mit State-of-the-Art

M-CBM wird mit folgenden Baselines verglichen:

LF-CBM: Label-Free CBM (nutzt CLIP).
VLG-CBM: Nutzt GroundingDINO und LLMs zur Annotation.
DN-CBM: Nutzt CLIP-Features mit SAE.

4. Ergebnisse

Die Evaluation erfolgte auf drei Datensätzen: CUB (Vögel), ISIC2018 (Hautläsionen) und ImageNet.

Genauigkeit bei gleicher Sparsity: M-CBM übertrifft konsistent alle anderen CBMs bei gleichen NCC-Werten (z. B. NCC=5). Auf ImageNet erreicht M-CBM bei NCC=5 eine Genauigkeit von 72,18 %, während die nächstbeste Methode (VLG-CBMCA) nur 64,63 % erreicht.
Konzept-Vorhersage: M-CBM zeigt eine deutlich höhere ROC-AUC bei der Vorhersage der eigenen Konzepte (z. B. 90,04 % Macro-AUC auf CUB vs. 62,03 % bei VLG-CBMCA). Dies liegt daran, dass die Konzepte aus dem Backbone stammen und somit besser lernbar sind als externe, oft nicht-visuelle Konzepte.
Informationsleckage:
- Bei VLG-CBM (mit klassenbedingter Annotation) führt der Austausch echter Konzepte durch zufällige Wörter kaum zu einem Genauigkeitsverlust (Leckage ist hoch).
- Bei M-CBM führt der Austausch durch zufällige Wörter zu einem drastischen Genauigkeitsabfall, was beweist, dass die Leistung tatsächlich auf den semantischen Konzepten und nicht auf Leckagen beruht.
Erklärungen: Die Sankey-Diagramme und lokalen Erklärungen zeigen, dass M-CBM intuitive und fachlich korrekte Konzepte nutzt (z. B. Unterscheidung zwischen „Modem" und „Radio" basierend auf Anschlüssen vs. Knöpfen).

5. Bedeutung und Fazit

Wissenschaftliche Bedeutung:
Das Paper demonstriert erfolgreich, dass mechanistische Interpretierbarkeit (SAEs) genutzt werden kann, um CBMs zu bauen, die nicht nur interpretierbar, sondern auch leistungsfähig sind. Es widerlegt die Annahme, dass CBMs zwangsläufig unter Blackbox-Modellen liegen müssen, wenn man Informationsleckage kontrolliert.

Praktische Implikationen:

Automatisierte Konzept-Entdeckung: Der Ansatz eliminiert die Notwendigkeit, Konzepte manuell oder durch LLMs zu erfinden, die oft nicht in den Daten vorhanden sind.
Robustheit: Durch die Nutzung der internen Repräsentationen des Modells sind die Konzepte robuster und besser an die Aufgabe angepasst.
Kontrolle der Erklärbarkeit: Die NCC-Metrik bietet ein neues Werkzeug, um den Trade-off zwischen Genauigkeit und der Kürze der Erklärung präzise zu steuern.

Limitationen:

Ressourcen: Die Annotation durch MLLMs (insbesondere GPT-4.1) ist rechenintensiv und kostspielig, auch wenn sie effizienter ist als manuelle Annotation.
Qualität der Annotation: Die Qualität der Konzepte hängt stark von der Leistung des verwendeten MLLM ab. Tests mit Open-Source-Modellen (InternVL) zeigten einen Leistungsabfall, insbesondere bei komplexen Datensätzen wie ImageNet.
Leckage: Obwohl reduziert, ist Informationsleckage nicht vollständig eliminiert; CBMs auf zufälligen Wörtern erreichen immer noch höhere Genauigkeiten als erwartet.

Zusammenfassend stellt M-CBM einen bedeutenden Schritt hin zu wirklich interpretierbaren KI-Systemen dar, die die Leistung von Blackbox-Modellen nicht opfern müssen, indem sie deren eigene „Gedanken" als Erklärungsgrundlage nutzen.