Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar een beetje naïeve student hebt die net is afgestudeerd aan de "Kunst van het Herkennen". Deze student heeft duizenden foto's van vogels, vissen en auto's bekeken. Hij is zo goed geworden dat hij op standaardtoetsen bijna perfect scoort. Maar als je hem een foto van een vogel laat zien die op een heel andere manier is gefotografeerd (bijvoorbeeld in een tekening, of met een heel andere achtergrond), faalt hij dramatisch.

Waarom? Omdat hij niet echt naar de vogel kijkt. Hij kijkt naar de achtergrond.

Als hij een foto van een papegaai ziet op een palmboom, denkt hij: "Aha, palmboom = papegaai!" Hij heeft geleerd dat de palmboom het belangrijkste bewijs is, niet de papegaai zelf. Dit noemen onderzoekers "spurious correlations" (schijnbare verbanden). Hij leert shortcuts (kortere wegen) in plaats van de echte les.

Deze paper introduceert een nieuwe methode, genaamd CFT (Concept-Guided Fine-Tuning), om deze student weer op het juiste spoor te zetten. Hier is hoe het werkt, vertaald naar alledaags taal:

1. Het Probleem: De Student die naar de Achtergrond kijkt

Normaal gesproken proberen we modellen te verbeteren door ze te zeggen: "Kijk maar naar het object, en negeer de achtergrond." Ze gebruiken daarvoor een simpele masker: "Alles wat niet het object is, is achtergrond."

Maar dat is te grof. Een vogel is niet alleen een vlekje in het midden. Een vogel heeft vleugels, een snavel en veren. Als je alleen zegt "kijk naar de vogel", blijft de student misschien staren op de hele silhouet en mist hij de details die echt tellen. Hij mist de betekenis.

2. De Oplossing: CFT (De "Concept-Gids")

De auteurs van dit paper hebben een slimme manier bedacht om de student te leren naar de echte details te kijken, zonder dat ze duizenden foto's hoeven te tekenen of handmatig maskers moeten maken.

Het proces verloopt in drie stappen, alsof je een privé-tutor huurt:

Stap 1: De LLM (De Woordenschat-Maker)
Eerst vragen ze een super-slimme taalcomputer (een Large Language Model, zoals een geavanceerde versie van wat wij nu gebruiken) om te bedenken wat een vogel eigenlijk is. De computer zegt: "Voor een vogel moet je kijken naar: een snavel, vleugels, poten en veren." Dit zijn de concepten. Geen handmatig werk, de computer bedenkt het zelf.
Stap 2: De VLM (De Zoeker)
Vervolgens nemen ze een andere slimme computer (een Vision-Language Model) en zeggen: "Zoek op deze foto eens naar een 'snavel' en 'vleugels'." Deze computer tekent automatisch rondjes om die specifieke delen op de foto. Het is alsof je een zoektocht houdt in plaats van een zwart-wit masker te plakken.
Stap 3: De Training (Het Herstellen van de Focus)
Nu wordt de student (het Vision Transformer-model) opnieuw getraind, maar met een heel specifieke opdracht:
- "Als je een 'snavel' ziet, moet je daar heel sterk op focussen."
- "Als je alleen maar een 'palmboom' ziet (zonder vogel), moet je daar niet op focussen."
- "En zorg dat je je antwoord (de naam van de vogel) niet vergeet!"

Ze doen dit met heel weinig foto's (slechts 3 per vogelsoort) en slechts de helft van de vogelsoorten. Het is alsof je de student een paar dagen extra laat studeren met de juiste tips, in plaats van hem opnieuw te laten beginnen.

3. Het Resultaat: Een Slimmer, Betrouwbaarder Model

Na deze training gebeurt er iets magisch:

Beter op nieuwe situaties: Als je de student nu een tekening van een vogel laat zien, of een vogel in de sneeuw, herkent hij hem nog steeds. Waarom? Omdat hij niet meer kijkt naar de "palmboom" of de "zomertuin", maar naar de snavel en de vleugels. Die details zijn altijd hetzelfde, ongeacht de achtergrond.
Betere uitleg: Als je vraagt "Waarom denk je dat dit een vogel is?", wijst hij nu echt naar de snavel en de vleugels, in plaats van naar de achtergrond. Dit maakt het model niet alleen sterker, maar ook begrijpelijker.

De Grootste Doorbraak

Het meest fascinerende is dat deze methode werkt zonder dat mensen duizenden uren moeten besteden aan het tekenen van maskers. De computer doet het bijna volledig automatisch. En het werkt zelfs op vogelsoorten die de student tijdens de training nooit heeft gezien. Hij heeft niet de namen van die vogels geleerd, maar hij heeft geleerd hoe je een vogel herkent.

Kort samengevat:
Stel je voor dat je iemand leert een auto te herkennen. De oude manier was: "Kijk naar de auto, negeer de rest." De nieuwe manier (CFT) is: "Kijk specifiek naar de wielen, de koplampen en de grille. Als je die ziet, is het een auto, ongeacht of hij in de sneeuw staat of in de woestijn."

Dit maakt de kunstmatige intelligentie niet alleen slimmer, maar ook veel betrouwbaarder in de echte wereld, waar dingen niet altijd perfect zijn zoals in de training.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Moderne Vision Transformers (ViTs) presteren uitstekend op standaard benchmarks zoals ImageNet, maar vertonen een aanzienlijke afname in prestaties bij distributieveranderingen (out-of-distribution of OOD). De kern van dit probleem is dat deze modellen vaak vertrouwen op spuriële correlaties (schijnverbanden) in plaats van semantisch betekenisvolle kenmerken. In plaats van het object zelf te analyseren, leren modellen vaak om te vertrouwen op achtergrondteksturen, contextuele aanwijzingen of statische patronen.

Bestaande regularisatiemethoden proberen dit aan te pakken door gebruik te maken van eenvoudige voorgrond-achtergrond maskers. Deze aanpak heeft echter twee grote beperkingen:

Ze zijn te grof (binary): ze behandelen het voorgrondobject als een uniform gebied en negeren de interne semantische structuur (bijv. het onderscheid tussen "vleugels" en "snavel" bij een vogel).
Ze vereisen vaak handmatig geannoteerde segmentatiemaskers of volledige hertraining, wat niet schaalbaar is voor grote, vooraf getrainde modellen.

Methodologie: Concept-Guided Fine-Tuning (CFT)

De auteurs introduceren CFT, een post-hoc framework dat ViTs stuurt naar semantisch betekenisvol redeneren zonder handmatige annotaties of volledige hertraining. Het proces verloopt in drie fasen:

Generatie van Concepten (LLM-based):
- Voor elke klasse worden contextbewuste, semantische concepten voorgesteld (bijv. "lange snavel", "vinnen") met behulp van een LLM (Large Language Model) in een label-vrije methode.
- Een automatische validatiestap beoordeelt deze concepten op basis van hun voorkomingsfrequentie en ruimtelijke dekking.
Ruimtelijke Grounding (VLM-based):
- Een Vision-Language Model (specifiek GroundedSAM, een combinatie van GroundingDINO en SAM) gebruikt de gegenereerde concepten om automatisch ruimtelijke segmentatiemaskers te genereren voor de trainingsafbeeldingen.
- Dit resulteert in een adaptief "semantisch mask" ( $S(I)$ ) dat specifieke objectonderdelen benadrukt in plaats van het hele object of de achtergrond.
Fine-tuning met Relevantiemapping:
- Het model wordt geoptimaliseerd om de interne relevantiemapping (berekend via AttnLRP, een betrouwbare methode voor Transformers) af te stemmen op de gegenereerde conceptmaskers.
- De trainingsdoelstelling ( $L$ $L$ ) bestaat uit twee componenten:
  - Alignement Loss ( $L_{align}$ ): Bevordert hoge relevantie binnen de conceptgebieden ( $L_{concept}$ ) en onderdrukt relevante signalen in de achtergrond ( $L_{non-concept}$ ).
  - Classificatie-Consistentie Loss ( $L_{cls}$ ): Een cruciaal onderdeel dat de classificatie-accuraatheid behoudt door de waarschijnlijkheid van de door het model zelf voorspelde klasse te versterken (in plaats van te vertrouwen op ground-truth labels die tijdens de fine-tuning beperkt kunnen zijn).

Het framework vereist slechts een zeer kleine dataset (3 afbeeldingen per klasse voor de helft van de ImageNet-classes, totaal ~1500 afbeeldingen) en geen handmatige annotaties.

Kernbijdragen

Nieuw Framework: Introductie van CFT, een volledig geautomatiseerd, data-efficiënt fine-tuning framework dat ViTs afleidt van spuriële correlaties.
Concept-niveau Supervisie: Het bewijzen dat fijnmazige semantische concepten (bijv. "vinnen") een effectievere supervisie bieden voor robuustheid dan traditionele, uniforme voorgrond-achtergrond maskers.
Geen Ground-Truth Maskers: Het elimineren van de noodzaak voor menselijke annotatie door gebruik te maken van LLM's en VLM's voor het genereren van trainingsignalen.
Betrouwbare Explainability: Het gebruik van AttnLRP als basis voor de relevantiemapping, wat zorgt voor stabielere en trouwere interpretaties dan gradient-based methoden voor ViTs.

Resultaten

De methode is uitgebreid getest op vijf OOD-benchmarks (waaronder ImageNet-A, ObjectNet, ImageNet-R, ImageNet-Sketch en SI-Score) en drie ViT-architecturen (ViT-B, DINOv2, DeiT-III) en één CNN (ConvNeXt-V2).

Verbeterde Robuustheid: CFT overtreft consistent state-of-the-art baselines (zoals GradMask, RRR, RRDA) op alle OOD-datasets. De verbeteringen zijn het grootst bij datasets met complexe achtergronden of natuurlijke adversarial voorbeelden (bijv. ImageNet-A).
Generalisatie: De verbeteringen in robuustheid generaliseren naar klassen die niet zijn gebruikt tijdens de fine-tuning, wat aantoont dat het model zijn onderliggende redeneerproces heeft verfijnd in plaats van alleen specifieke cues te hebben gememoriseerd.
Semantische Uitlijning: De gegenereerde relevantiemaps tonen een sterkere overeenkomst met ground-truth objectmaskers (gemeten via mIoU en mAP), wat bevestigt dat het model zich richt op betekenisvolle objectonderdelen.
Data-efficiëntie: De methode bereikt deze resultaten met slechts 1.500 afbeeldingen (3 per klasse voor 50% van de classes), wat de schaalbaarheid voor grote modellen aantoont.

Betekenis en Impact

Dit paper biedt een schaalbare route naar meer betrouwbare en interpreteerbare visuele modellen. Door de afhankelijkheid van spuriële achtergrondkoppelingen te doorbreken en de focus te leggen op semantische objectonderdelen, verbetert CFT niet alleen de prestaties in onzekere, real-world omgevingen, maar maakt het modellen ook transparanter. De bevinding dat concept-gestuurde maskers superieur zijn aan traditionele segmentatie voor robuustheid, opent nieuwe richtingen voor het trainen van AI-systemen die beter bestand zijn tegen veranderingen in de omgeving, zonder de kosten en moeite van extensieve handmatige annotatie.

Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness

1. Het Probleem: De Student die naar de Achtergrond kijkt

2. De Oplossing: CFT (De "Concept-Gids")

3. Het Resultaat: Een Slimmer, Betrouwbaarder Model

De Grootste Doorbraak

Probleemstelling

Methodologie: Concept-Guided Fine-Tuning (CFT)

Kernbijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Exploring AI in Fashion: A Review of Aesthetics, Personalization, Virtual Try-On, and Forecasting

Rule Extraction in Machine Learning: Chat Incremental Pattern Constructor

Inverse classification with logistic and softmax classifiers: efficient optimization

BarcodeBERT: Transformers for Biodiversity Analysis

On Minimal Depth in Neural Networks