Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der "Hase im Gras"-Effekt

Stell dir vor, du hast einen sehr intelligenten Schüler (den Vision Transformer oder ViT), der gelernt hat, Tiere auf Bildern zu erkennen. Er ist super gut darin, im Schulbuch (dem Standard-Datensatz) alle Vögel zu identifizieren.

Aber wenn du ihn auf die Straße schickst, wo die Bedingungen anders sind, stolpert er. Warum? Weil er nicht wirklich lernt, was ein Vogel ist. Stattdessen hat er sich einen faulen Trick (eine "spurious correlation") angewöhnt: Er schaut nicht auf den Vogel, sondern auf den Hintergrund.

Beispiel: In seinen Trainingsbildern waren Vögel fast immer auf Ästen zu sehen. Wenn er also ein Bild sieht, scannt er nicht den Vogel, sondern sucht nach einem Ast. Wenn er einen Ast sieht, ruft er "Vogel!".
Das Problem: Wenn du ihm ein Bild zeigst, auf dem ein Vogel im Flug ist (kein Ast), denkt er: "Kein Ast? Dann ist es kein Vogel!" und macht einen Fehler. Er verlässt sich auf den Kontext, nicht auf das Wesentliche.

Die Lösung: CFT (Concept-Guided Fine-Tuning)

Die Autoren haben eine Methode namens CFT entwickelt, um diesen Schüler umzuerziehen. Statt ihn komplett neu zu unterrichten (was teuer und langsam wäre), geben sie ihm einen kleinen, aber sehr klugen "Nachhilfeunterricht".

Stell dir CFT wie einen sehr klugen Tutor vor, der dem Schüler sagt: "Hör auf, auf den Ast zu schauen! Schau stattdessen auf den Schnabel und die Flügel!"

Hier ist der Ablauf in drei Schritten:

Der Ideen-Generator (LLM):
Zuerst fragt die KI einen Sprach-Assistenten (wie einen sehr gebildeten Freund): "Was sind die wichtigsten Merkmale eines Vogels?"
Der Assistent antwortet nicht einfach "Vogel", sondern nennt spezifische Konzepte: "Schnabel", "Federn", "Flügel", "Klaue". Das ist wie eine Checkliste für das Wesentliche.
Der Sucher (VLM):
Dann nimmt ein zweites KI-Tool (ein "Sucher") diese Checkliste und schaut sich die Trainingsbilder an. Es sucht automatisch nach diesen Teilen.
- "Wo ist der Schnabel?" -> Hier! (Maske erstellt).
- "Wo sind die Flügel?" -> Hier! (Maske erstellt).
- "Wo ist der Ast?" -> Ignorieren!
  Der Schüler bekommt also keine grobe Maske, die einfach "alles vor dem Hintergrund" markiert, sondern eine feine Landkarte, die genau zeigt, wo die wichtigen Teile sind.
Das Training (Fine-Tuning):
Jetzt wird der Schüler (das Modell) nur auf ein paar wenigen Bildern (nur 3 Bilder pro Tierart!) neu trainiert. Die Aufgabe ist einfach:
- "Wenn du 'Vogel' sagst, muss deine Aufmerksamkeit genau auf dem Schnabel und den Flügeln liegen."
- "Wenn deine Aufmerksamkeit auf dem Hintergrund oder dem Ast liegt, bekommst du eine Abmahnung."

Warum ist das so genial?

Es braucht kaum Daten: Der Schüler muss nicht die ganze Bibliothek neu lesen. Nur ein paar Beispiele reichen, um das Verhalten zu ändern.
Es funktioniert überall: Wenn der Schüler gelernt hat, auf den Schnabel zu achten, erkennt er einen Vogel auch im Flug, im Wasser oder als Cartoon. Er hat das Wesen des Vogels verstanden, nicht nur den Hintergrund.
Kein menschlicher Aufwand: Niemand muss mühsam jeden Schnabel auf tausenden Bildern von Hand einkreisen. Die KI macht das automatisch.

Das Ergebnis

Am Ende ist der Schüler nicht nur robuster (er macht weniger Fehler in neuen Situationen), sondern auch ehrlicher. Wenn man fragt, warum er einen Vogel erkannt hat, zeigt er nicht mehr auf den Hintergrund, sondern direkt auf den Schnabel.

Zusammengefasst:
Die Forscher haben eine Methode gefunden, um KI-Modelle davon abzubringen, auf "Tricks" (wie Hintergründe) zu vertrauen, und sie stattdessen dazu zu bringen, auf die wahren Merkmale (wie Schnäbel oder Räder) zu achten. Das macht die KI sicherer und zuverlässiger, auch wenn die Welt um sie herum sich ändert.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Moderne Vision Transformer (ViT) erzielen zwar auf Standard-Datensätzen wie ImageNet hervorragende Ergebnisse, zeigen jedoch eine geringe Robustheit bei Verteilungsverschiebungen (Out-of-Distribution, OOD). Das Hauptproblem liegt darin, dass diese Modelle oft auf spurious correlations (trügerische Korrelationen) statt auf semantisch relevante Merkmale angewiesen sind. Sie lernen beispielsweise, Objekte anhand des Hintergrunds oder kontextueller Hinweise zu erkennen, anstatt sich auf die eigentlichen Objektteile (z. B. Schnabel und Flügel bei einem Vogel) zu konzentrieren.

Bestehende Regularisierungsmethoden, die versuchen, dieses Verhalten zu korrigieren, nutzen oft einfache Vordergrund-Hintergrund-Masken. Diese sind jedoch zu grob, da sie den Vordergrund als einheitliche Region behandeln und die feingranulare semantische Struktur innerhalb des Objekts ignorieren. Zudem erfordern viele Ansätze manuell annotierte Segmentierungsmasken oder ein vollständiges Neutrainieren großer Modelle, was nicht skalierbar ist.

2. Methodik: Concept-Guided Fine-Tuning (CFT)

Die Autoren stellen Concept-Guided Fine-Tuning (CFT) vor, ein nachträgliches (post-hoc) Feinabstimmungsframework, das die interne Logik von ViTs steuert, ohne manuelle Annotationen oder ein vollständiges Neutrainieren zu benötigen. Der Prozess läuft in drei Stufen ab:

Generierung von Konzepten (LLM-basiert):
- Für jede Klasse wird eine Menge kontextbewusster, semantischer Konzepte (z. B. „Schnabel", „Flossen") automatisch mittels eines Large Language Models (LLM, hier GPT-4o-mini) vorgeschlagen.
- Diese Konzepte werden durch visuelle Verankerung validiert, um sicherzustellen, dass sie tatsächlich im Bild vorkommen.
Räumliche Lokalisierung (VLM-basiert):
- Ein Vision-Language-Modell (GroundedSAM, eine Kombination aus Grounding DINO und Segment Anything) segmentiert diese Konzepte in den Trainingsbildern.
- Daraus entstehen adaptive, binäre semantische Leitmasken ( $S(I)$ ), die genau die Regionen markieren, die den relevanten Konzepten entsprechen.
Optimierungsziel (Fine-Tuning):
- Das Modell wird auf einer sehr kleinen Datenmenge (nur 1.500 Bilder, 3 pro Klasse für die Hälfte der ImageNet-Klassen) feinabgestimmt.
- Relevanzkarten: Anstelle von Gradienten wird die AttnLRP (Attention-aware Layer-wise Relevance Propagation) Methode verwendet, um stabile und treue Relevanzkarten ( $\Phi$ ) zu berechnen, die zeigen, welche Bildteile für die Vorhersage wichtig waren.
- Verlustfunktion: Das Ziel ist es, die Relevanzkarte mit der Konzeptmaske auszurichten. Der Gesamtverlust $L$ $L$ besteht aus:
  - Align-Loss ( $L_{align}$ ): Bestraft niedrige Relevanz in Konzeptregionen ( $L_{concept}$ ) und hohe Relevanz in Nicht-Konzeptregionen ( $L_{non-concept}$ ).
  - Klassifikations-Konsistenz-Loss ( $L_{cls}$ ): Ein neuer Ansatz, der die Wahrscheinlichkeitsverteilung des feinabgestimmten Modells mit der des ursprünglichen Modells konsistent hält (anstatt die Ground-Truth-Labels direkt zu erzwingen), um einen Accuracy-Verlust zu vermeiden.

3. Schlüsselbeiträge

Konzeptbasierte statt grobe Masken: CFT ersetzt die binäre Vordergrund-Hintergrund-Trennung durch feingranulare, semantische Konzepte, die für die Robustheit entscheidend sind.
Vollautomatisierung: Das System benötigt keine manuellen Annotationen. Konzepte und Masken werden automatisch durch LLMs und VLMs generiert.
Daten- und Recheneffizienz: Die Methode funktioniert mit extrem wenig Daten (nur 1.500 Bilder) und ist als leichtgewichtiges Fine-Tuning auf vortrainierten Modellen anwendbar.
Neuer Regularisierungsansatz: Die Einführung des Klassifikations-Konsistenz-Losses ermöglicht es, die Robustheit zu steigern, ohne die Genauigkeit auf den Trainingsdaten drastisch zu senken.
Verwendung von AttnLRP: Die Wahl von AttnLRP statt reiner Gradienten-basierter Methoden (wie GradCAM) sorgt für stabilere und vertrauenswürdigere Relevanzkarten, die als Optimierungsziel dienen.

4. Ergebnisse

Die Autoren evaluieren CFT auf fünf OOD-Benchmarks (ImageNet-A, ObjectNet, ImageNet-R, ImageNet-Sketch, SI-Score) und drei ViT-Architekturen (ViT-B, DINOv2, DeiT-III) sowie ConvNeXt-V2.

Robustheitsgewinn: CFT erzielt konsistent signifikante Verbesserungen bei OOD-Datensätzen im Vergleich zu State-of-the-Art-Baselines (GradMask, RRR, RRDA).
- Beispiel ImageNet-A (natürliche Adversarial Examples): Steigerung der Top-1-Accuracy von ~13% (Original) auf ~27% (CFT) für ViT-B.
- Beispiel ObjectNet: Steigerung von ~33% auf ~54%.
Verbesserte Interpretierbarkeit: Die Relevanzkarten der CFT-Modelle zeigen eine deutlich stärkere Übereinstimmung mit Ground-Truth-Objektmasken (höheres mIoU und mAP). Das Modell lernt, sich auf semantisch sinnvolle Teile zu konzentrieren.
Generalisierung: Die Verbesserungen verallgemeinern sich auch auf Klassen, die während des Fine-Tunings nicht gesehen wurden. Dies beweist, dass das Modell die zugrundeliegende Reasoning-Strategie verbessert und nicht nur spezifische Klassenmerkmale auswendig gelernt hat.
Vergleich mit Segmentierung: Ein Ablation-Studie zeigt, dass konzeptbasierte Masken (CFT) effektiver sind als reine Objekt-Segmentierungsmasken (Segmentation), da sie spezifischere Merkmale hervorheben.

5. Bedeutung und Fazit

Das Paper zeigt, dass die Robustheit von Vision-Modellen nicht durch bloßes Vergrößern der Trainingsdaten oder grobe Regularisierung erreicht werden muss, sondern durch die gezielte Ausrichtung der internen Aufmerksamkeit auf semantische Konzepte.

CFT bietet einen skalierbaren Weg, um große, vortrainierte Modelle effizient robuster und interpretierbarer zu machen. Es widerlegt die Annahme, dass man für solche Verbesserungen zwingend große Mengen an annotierten Daten benötigt. Stattdessen demonstriert es, dass die Kombination aus LLMs (für Konzeptgenerierung) und VLMs (für räumliche Verankerung) in Kombination mit einem sorgfältig gestalteten Fine-Tuning-Ziel (CFT) ein mächtiges Werkzeug ist, um die Abhängigkeit von trügerischen Hintergrundkorrelationen zu durchbrechen. Dies ist ein wichtiger Schritt hin zu zuverlässigeren KI-Systemen für reale Anwendungen, in denen Umgebungsbedingungen variieren.

Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness

Das Problem: Der "Hase im Gras"-Effekt

Die Lösung: CFT (Concept-Guided Fine-Tuning)

Warum ist das so genial?

Das Ergebnis

1. Problemstellung

2. Methodik: Concept-Guided Fine-Tuning (CFT)

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Exploring AI in Fashion: A Review of Aesthetics, Personalization, Virtual Try-On, and Forecasting

Rule Extraction in Machine Learning: Chat Incremental Pattern Constructor

Inverse classification with logistic and softmax classifiers: efficient optimization

BarcodeBERT: Transformers for Biodiversity Analysis

On Minimal Depth in Neural Networks